В презентации 6-го дня курса на с.4 указана статистика, имеющая распределение Фишера, по значению которой предлагается строить фильтр "пилы". Почему применяется именно такая формула? Она имеет преимущество в случае малых выборок?
В стандартных учебниках для проверки значимости коэффициента корреляции r рекомендуют применять либо статистику Стьюдента
t=r/sqrt(1-r*r)*sqrt(n-2)
с n-2 степенями свободы (для больших выборок), либо преобразование Фишера
0.5*ln((1+r)/(1-r))
и нормальный квантиль (для небольших выборок).
В случае малых выборок со стационарным нормальным распределением приведенная мной статистика имеет распределение Фишера и позволяет строить квантили распределения.
Тем более, что исходная задача не оценить r, а различить гипотезу относительно знака "минус-не минус", а статистики, приведенные Вами используются для оценки r и обладают недостатками:
1 В Стьюденте присутствует r*r, что влечет за собой большую ошибку на малых выборках.
2. Преобразование Фишера только для больших стационарных выборок имеет в пределе нормальное распределение, а стационарность не верна в рамках кусочно-постоянной модели. Распределение этой статистики на малых выборках требует табуляции.
Ответ понятен, спасибо. Я думал, что есть некоторые аргументы в пользу того, что применяемая статистика "самая подходящая" для задачи различения знака.
Это рассказывалось на курсе. Если одно испытание указало на разладку на t+1 шаге, то на следующем этапе мы сравниваем два новых испытания - t+1 и t+2 c предыдущем участком. И считаем разладку подтвержденной, если два испытания указали на разладку. И после t+2 шага мы имеем два испытания.
Мы заметили Ваш ресурс, который произвел впечатление продвинутого и читаемого контента. Много полезной информации!
Я представляю инвестиционное сообщество ProValue, которое объединяет инвесторов и трейдеров.
Мы занимаемся, разработкой аналитического ПО, обсуждаем и обучаем в первую очередь Вэлью Инвестированию и продвинутым Опционным Стратегиям. Всесторонне подходим к анализу бизнеса компании, их финансовой отчетности, состоянию отрасли и экономики, при поиске наиболее интересных объектов инвестирования.
Подумали, что вашим читателям будет полезно использовать инструменты для анализа акций ProValue Analytics:
http://analytics.provalue.club/
http://provalue.club/interesting/pva_investing.html
Нам интересно узнать ваше мнение по данным инвестиционным инструментам! Можете сделать обзор инструментов, написать на сколько удобно или не удобно работать в них с точки зрения инвестора? Что вам, или вашим читателям инвесторам может быть еще необходимо при анализе компании, для принятия инвестиционного решения?
Для вас мы предлагаем:
· Бесплатное использование возможностей по анализу акций и опционов ProValue Analytics;
· Участие в Сообществе ProValue;
· Виджеты финансовой аналитики для вашего сайта;
· Готовы расширять функционал аналитики под ваши нужды;
Будем благодарны за ваш ответ и мнение по сервису. Можете разместить его на вашем ресурсе?
--
С уважением,
Емельянова Анастасия, менеджер ProValue и
Команда ProValue Group,
Сообщество: http://provalue.club
Академия: http://provalue.ru
Инструменты: http://analytics.provalue.club/
Email: ask@provalue.ru
Skype: provalue.ru
На первом шаге для разладки в формуле sqrt(t-2)*... если у нас только две точки, то корень из (t-2) даст ноль. Значит, надо, чтобы у нас было как минимум три точки?
Тогда, если мы обнаружили разладку, и на втором шаге по второй формуле (второму критерию) её подтвердили, у нас в новом куске стационарности снова только две точки. Но для новой проверки первого шага нужно снова три точки. Как быть?
Чтобы знаменатель был отличен от нуля, как правило, достаточно двух точек (третья - это будущее приращение и стоит только в числителе). Исключение: в этих двух точках приращения логарифмов точно совпадают. Но для этого случая, как и вообще для случая малости знаменателя и делалась более долгосрочная оценка волатильности.
Александр, со знаменателем понятно. Я про дробь в целом спрашивал. Там перед дробью стоит sqrt(t-2), который затем умножается на отклонение приращения от среднего, делённое на волатильность. Соответственно, в случае двух точек t-статистика всегда будет равна нулю, а вероятность 0.5 (поскольку sqrt(t-2)=0)! Как это интерпретировать?
Не могли бы вы мне тоже выслать файлы из последней лекции, увы, я тоже её пропустил.
email: pavel.burundukov@gmail.com
Кажется, я понял свою ошибку. Я точку, на которой проверяем разладку, не включал в стационарный интервал. Поэтому у меня t на один меньше был. В формуле же мы проверяем последнюю точку из стационарного интервала, а мат. ожидание и дисперсию считаем для t-1 точек. Правильно?
Добрый день, Александр.
В описании первого торгового алгоритма после формулы регрессии
LnCt/Ot =a1 (LnHt/Ot + LnLt/Ot) + b1
у Вас идет:
h(р)≤0: P(b1≤h(p))≤1-р
l(p)≥0: P(b1≤l(p)) ≤p
Что такое h(p) и l(p)? Это границы доверительного интервала или что?
Возник вопрос по поводу принципов построения контртрендовых систем:
Общий смысл, на сколько я понял, заключается в построении шагов усреднения от волатильности и выбора объема. Т.е. мы для контртренда вообще не смотрим на стационарность. Как же тогда обстоят дела с зависимостью будущих приращений от прошлых?
И еще вопрос по поводу стационарности и зависимости будущих данных от прошлых:
Если взять в пример достаточно широкий коридор цен, то стационарность там ломается на каждом отрезке, но закономерность поведения (канал) видна даже на глаз, возможно ошибочно. Мне видится, что если мы возьмем тот же канал на более длительном таймфрейме, то стационарность там будет. Т.е. закономерность есть но на текущем таймфрейме математически не просматривается.
Что Вы думаете по этому поводу, и верны ли мои рассуждения?
=======================================
Т.е. мы для контртренда вообще не смотрим на стационарность. Как же тогда обстоят дела с зависимостью будущих приращений от прошлых?
========================================
Ну от чего го ж не смотрим? Мы априори предполагаем, что имеем дело со кусочно-стационарным процессом с нулевым средним и отрицательными корреляциями соседних приращений. А "куски" стационарности отличаются только стандартным отклонением.
========================================
Если взять в пример достаточно широкий коридор цен, то стационарность там ломается на каждом отрезке, но закономерность поведения (канал) видна даже на глаз, возможно ошибочно.
======================================
Не знаю, мои исследования показали отсутствие предикативности "каналов" на дневных данных. Отсутствие в том смысле, что убытки в случае выхода превосходят прибыли в торговли "на отбой" после того, как канал определился. Поэтому с этой темой для дневок (и больше) я "завязал". Также косвенно сильноантиперсистентная модель свидетельствует, что на минутках можно что-то "накопать", но там уж слишком низкая прибыль на сделку для моих объемов и потому этой темой я не занимался.
Доброго времени суток.
Возник вопрос по поводу инструментов:
Я косвенно понял, что в Вашем фьючерсном портфеле торгуются SI, RI, EU и SR. Отбор вероятно основывался на ликвидности. Почему тогда не торгуются ED и BR, возможно есть еще какие-то соображения по поводу отбора?
Ну я торгую только RI и Si. SBER, GAZP и GMKN я торгую на споте. Eu не торгую из-за ликвидности и коррелированости с Si. Но если в портфеле есть Si и Eu, то в ED смысла нет - это ж просто функция от первых двух. А что касается BR, то инструменты, которые в течении дня часто ходят туда-обратно на величину волатильности на дневках, вообще не для моих систем, так как у меня в основе заложено понятие "идеального дня" (я давал на лекции его определение). А BR как раз инструмент с очень низкой долей "идеальных дней". Я и в Si торгую не те системы, которые давали наивысшую доходность в сентябре 2008-2009 и сентябре 2014-январе 2016, а те, которые давали наивысшую доходность в 2010-августе 2014. А отбор прост: ликвидность (чем больше тем лучше), те плюс доля "идеальных дней" (чем больше тем лучше) плюс доля "пил" (чем меньше тем лучше). И сейчас, кроме перечисленных по этим критериям я бы мог еще ROSN и MAGN и все для России.
Вопрос по поводу угадывания направления в хорошей системе в более чем 50% случаев:
Как этот тезис соотносится с контртрендовой торговлей, где по факту мы сильно не угадываем направление в каждом из входов?
Если зеркалировать принципы контртрендовой торговли и получить трендовую, то тоже не понятно зачем нам более 50% угадайка, т.к. профит выше лоса исходя из способов построения такого типа систем. Чем нас к примеру 48% не устроит?
Т.е. если переформулировать:
Мы открываем позицию на определенном такте работы алгоритма, если имеем статистическое преимущество перед рынком, т.е. угадайку выше 50%.
Исходя из этого контртрендовые системы вообще не должны работать, т.к. на такте открытия позиции у нас нету преимущества перед рынком, а мы что-то там себе предполагаем исходя из статистических св-в временного ряда.
1. Речь шла не о "больше 50%", а о том, что с учетом доверительного интервала должно быть не меньше 50%. На 1000 тактов работы алгоритма и 48% угадываний нормально при 95% доверительном интервале. Вот меньше 46% - уже плохо.
2. Речь шла об изменениях эквити на тактах работы алгоритма, а не сделках, т. е. изменения на тактах, где мы не только меняли позицию, но и сохраняли ранее набранную.
3. Контртрендовый алгоритм, не удовлетворяющий пп 1 и 2, также плох, как и трендовый, не удовлетворяющий им же.
Еще вопрос по поводу контртрендовых систем (я торгую внутри дня):
Возьмем предельный случай и, расставив уровни усреднения по волатильности, будем работать только от первого, беря прибыль на предыдущем и фиксируя убыток на следующем.
Получается, если у нас есть статистическое преимущество в момент открытия позиции (оно у нас должно быть если рынок контртрендовый, а внутри дня он чаще всего такой), то такая система должна быть как минимум прибыльной без издержек.
Плюс к этому, если цена двигается против позиции, то она тем самым проявляет трендовые св-ва, т.е. уменьшает вероятность того, что рынок контртрендовый в моменте.
Вопрос, зачем усреднение?
Или мы на каждом этапе усреднения как бы аккумулируем стат. преимущество контртренда и в итоге можем выйти на покрытие издержек и получение прибыли?
Тут еще вопрос, сколько раз можно усредниться. Идеальная контртрендовая система предполагает бесконечное усреднение, что в реальности не возможно и иногда нас будет разрывать.
Фиксируя убыток стоп-лоссом, а не после того как цена пройдет уровень в нашу сторону, мы очень существенно снижаем стат. преимущество идеальной контртрендовой системы. Мне видится, что такое снижение нивелирует все накопленное преимущество за все предыдущие этапы усреднения.
Еще вопрос по поводу расстановки уровней усреднения:
Видится разумным расставлять их на равном расстоянии, зависящим от волатильности. Однако, по ходу движения цены волатильность меняется. Не было бы более правильным динамически менять еще не отработанные уровни в зависимости от текущей волатильности.
Тут поразмыслил: вероятно основное снижение стат. преимущества контртрендовых систем происходит не из-за фиксации убытка как такового, т.к. это всего лишь один такт не по правилам, а из-за несвоевременного определения что контртренда уже нету и цена уходит далеко, аккумулируя гигантский убыток.
Смотрел вебинар Эрнеста Чана (http://www.epchan.com/)
он говорит что опережающими индикаторами риска больших хвостов могут быть ненормальность распределения приращений цен и поток ордеров (куммулятивная дельта, хотя не уверен что понял правильно). Про поток ордеров было сказано не совсем понятно, но возможно имелся ввиду какой-то сильный выброс не соответствующий движению цены.
Что Вы думаете по поводу таких фильтров?
Тут поразмыслил: вероятно основное снижение стат. преимущества контртрендовых систем происходит не из-за фиксации убытка как такового, т.к. это всего лишь один такт не по правилам, а из-за несвоевременного определения что контртренда уже нету и цена уходит далеко, аккумулируя гигантский убыток.
========================================
Вы совершенно правильно поняли
========================================
Еще вопрос по поводу расстановки уровней усреднения:
Видится разумным расставлять их на равном расстоянии, зависящим от волатильности. Однако, по ходу движения цены волатильность меняется. Не было бы более правильным динамически менять еще не отработанные уровни в зависимости от текущей волатильности.
==========================================
Я так и делаю ежечастно.
=========================================
Вопрос, зачем усреднение?
==========================================
В бинарной модели равномерное усреднение дает наименьшую просадку (соотношение доходность-просадка действительно не зависит от усреднения). Ну и ограничение убытков в случае задержки с определение тренда.
========================================
Тут еще вопрос, сколько раз можно усредниться. Идеальная контртрендовая система предполагает бесконечное усреднение, что в реальности не возможно и иногда нас будет разрывать.
======================================
Так как шаг усреднения совпадает у меня с часовой волатильностью, то маловероятно, что за следующий час цена "уйдет" даже на 10 волатильностей, а если уйдет, то фильтр контртренда укажет на тренд с вероятностью, близкой к 1. Тоже самое можно сказать и про два часа, в каждом из которых по 4-5 волатильностей в одном направлениию Поэтому логично предположитьЮ что с вероятностью, близкой к 1 больше 10 усреднений не потребуется. Тем более, что против рывков на новостях у меня стоит "ограничитель": не более одной операции в минуту.
=========================================
Что Вы думаете по поводу таких фильтров?
=========================================
Ничего не могу сказать, так как тест с использованием потока ордеров это вне моих программистских возможностей. А глоабльной нормальности в приращениях логарифмов цен и нет, а локальную не выявишь из-за краткосрочности участков с постоянными средними и дисперсией. Поэтому первое использовать проблематично.
Тогда еще больше не понял зачем оно (усреднение) нужно, когда мы можем значение просадки регулировать размером позиции?
=========================================
Размером позиции можно регулировать только убыток в одной сделке, а я говорю о просадке счета.
Здравствуйте!
Я хотел бы задать вопрос по статистике T3(t+1).
Программирую вычисление "M" на следующий бар (методом подбора) и поиск уровня "М" не всегда удается для одной из статистик.
По-моему её распределение не Стьюдент, т.к. при изменении d(t+1) числитель T3(t+1) меняется линейно, а знаменатель - как корень из параболы. После деления числителя на знаменатель T3(t+1) получается растущей немонотонно (с откатами), т.е. одному и тому же значению T3(t+1) могут соответствовать разные d(t+1).
Например, при росте d(t+1) выше d(t) статистика T3(t+1) сначала имеет высокие значения, а потом начинает убывать.
А статистики T1 и T2 при изменении последней точки менялись линейно/монотонно.
Поясните пожалуйста, может быть я неправильно понял формулу T3(t+1)?
1. Распределение этой статистики точно Стьюдент, если она берется на отрезке независимых одинаково распределенных нормальных случайных величин.
2. При вычислении неизвестного d(t+1), при котором происходит "разладка", действительно возникает не линейное, а квадратичное уравнение, но только один из его корней означает смену позиции. Поэтому для алгоритма торговли на следующий день важен только этот корень ("разладку" без смены позиции можно и по концу дня определить).
Понял. Я придумаю, как изменить движение по области значений, чтобы найти корень, но не попадать в область за ним, которая распределена уже не по Стьюденту. Спасибо!
Влад, Вы же по Стъюденту вычисляете только грвницу в неравенстве, которое надо решить относительно неизвестного d(t+1). Квадратичные неравенства не сложнее линейных. А распределение точно Стъюдент и это не зависит от степени неравенства.
Долго размышлял над бинарной моделью из первой лекции и пришел в выводу, что описанная вами логика не симметрична (хотя на данном уровне абстракции должна бы быть) относительно тренда и контртренда.
Описывая тренд, Вы говорите о стоп-лосе как логичной части модели, т.к. рынок делает то, что ей не соответствует, т.е. идет в противоположную сторону. Хотя об этом явно и не говорилось, но чтобы из простой модели убрать лишнее можно предположить что это движение на один такт назад.
При этом, говоря о контртренде, Вы не придерживаетесь той же логики - когда мы открыли позицию, а цена вместо того чтобы развернуться идет дальше, предлагается пересидеть, вместо того чтобы закрыть позицию, т.к. рынок сделал шаг не соответствующий модели как это было в трендовом случае.
Можно сказать, что все зависит от знака сигмы, показывающей тренд сейчас или контртренд, однако, описывая трендовую модель Вы об этом не упоминали, говоря лишь о неком стоп-лосе, при том что в контртрендовой модели делали упор именно на знак сигмы.
Второе что меня смутило, это то, что в контртрендовой модели Вы предлагаете для снижения просадки усредняться против движения, хотя рынок ведет себя против логики модели. В это же время в трендовой модели логично было бы добавляться по ходу движения при том что в этом случае, поведение рынка как раз модели соответствует.
Меня крайне заинтересовал подобный базовый абстрактный подход к построению систем - что делать, а что не делать.
Могли бы Вы пояснить описанные моменты, которые я не понял?
В рассмотренной бинарной модели ситуации как раз симметричны. Вы все время встаете по бОльшей вероятности выигрыша, которая совпадает со знаком дельты (там буква маленькая дельта, а не сигма). Если дельта положительна, то с бОльшей вероятностью движение повторит предыдущее, если отрицательна, то с той же бОльшей вероятностью будет противоположным предыдущему. И в первом и во втором случае получаем "орлянку" с вероятностью выигрыша (1+|дельта|)/2. Это пояснялось в лекции.
"Стоп" для "тренда" (дельта положительна) получается "автоматом": Вы поставили на орла (лонг), выпала решка (рынок упал) и в следующий такт Вы должны поставить на решку (шорт). Поэтому в текущей позиции Вы больше одного такта Вы не проиграете (много сделок не рассматривается, так они независимы). Добавляясь по ходу модели Вы снижаете прибыль в общей позиции в рамках одной сделки, при этом проигрыш при движении против Вас будет равен числу входов до первого движения против Вас, умноженной на размер одного(!) движения. Т. е. с точки зрения одной сделки получится хуже.
Для "контртренда" опять же при ставке на бОльшую вероятность выигрыша с точностью до наоборот: Вы поставили на орла, выпала решка, Вы снова должны поставить на орла. Если проводить аналогию с рыноком, то получим, что однажды открытая позиция должна держаться до первой локальной прибыли (от входа может быть и убыток). Чтобы уменьшить убыток(!) в одной сделке , который может быть гораздо больше одного такта и предлагается усреднение (при этом снижая пропорционально доходность). Однако никуда от "орлянки" мы не уходим.
Т. е. все рассуждения идут исключительно в рамках одной сделки при разных знаках дельты.
Помогите разобраться, стал искать разладку по распределению Стьюдента
Тонкость которую я увидел, это то что я тестировал на валютной паре GBP/USD исходная выборка это была LN отношения текущей цены закрытия к предыдущей цене закрытия дневок. После очередной точки разладки я начинал формировать доверительный интервал и с увеличением выборки как правило после 7-8 точек интервал сжимался и проходила точки разладки. И это происходило не от движения ценаы, а как правило за счет сжатия доверительного интервала меньше чем дневной ATR.
И у меня встал вопрос, а правильно ли я применяю методику.
Нужно в выборку включать все точки от разладки или брать интервал подсчитанный по 3 или 4 первым точкам.
Включать надо все точки от разладки, но как раз в курсе я говорил, что если знаменатель становится маленьким (а именно знаменатель отвечает за "размах" доверительного интервала), то вероятны ложные "разладки" и поэтому надо брать максимум из выборочной дисперсии на отрезке до прошлой разладки и сигмы, которая считается по 50 дням (свой алгоритм расчета я описывал и говорил, как его упростить) и в случае выбора сигма переходить к разладке по нормальному распределению (не Стьюденту).
Александр, здравствуйте.
В лекции по тестированию систем, вы говорили, что для критерия Манна-Уитни можно делить эквити на много отрезков. Как их оценивать в таком случае? Я пробовал разбивать по годам и сравнивать между собой попарно. Получается большой разброс вероятности ошибки даже у систем, у которых при разбиении пополам P высокая > 0.6.
Не могли бы вы выслать эксель файл с бектестом систем на alex90999@mail.ru?