Data mining / Machine learning / Недетерминистические стратегии. StockSharp

Data mining / Machine learning / Недетерминистические стратегии

01.12.2011

Church

Небольшой опрос.

Есть ли у вас опыт работы с data mining/ML в любой форме? Используете/планируете использовать его для трейдинга?
Знаете ли вы кого-нибудь, лично или иначе, кто это делает?
Как вы оцениваете количество трейдеров/УК/проп шопов, которые это делают в России? И если знаете, перечислите пожалуйста.
Ну и наконец, что вы думаете на этот счет в общем?

Теги:

клуб алготрейдеров

Спасибо:

vlad1024

Дата: 20.03.2012

Основная проблема почему ML в первозданном виде плохо применим для построения стратегий. Во первых, проблема заключается в том что ML алгориты - строят апроксимацию плотности вероятности в некотором пространстве факторов. То есть чтобы они там что-то "нашли", в структуре факторов должна присутствовать какая-то зависимость, то есть грубо говоря корреляция фактора и приращений инструмента к примеру. Но рынок очень близок к случайному блужданию, и найти такие факторы очень трудно, по одной простой причине каждый такой фактор - сам по себе золотая жила, без всякого ML.
Во-вторых, чтобы найти в это пространстве факторов какие-то не тривиальные зависимости при помощи ML не поддающиеся более простым методам (той же линейной регрессии), этих факторов должно быть много, что само по себе в следствии предыдущего пункта - не тривиально.
Поэтому основной упор стоит делать не на ML(который по сути самый тривиальный и заключительный этап) а на построение моделей числовых рядов (time series models). К примеру как это делает А.Г.(Горчаков).
По поводу кто применяет, никто же не раскажет. ) У меня по крайней мере сложилось мнение из его вебинара что Фишмана на верхнем уровне сигналы(которых много) микшируются через ML, что логично. У Механизатора (russian-trader) тоже схожая схема на верхнем уровне стоит.(можно почитать в какой-то его статье на сайте было). я к примеру, не особо применяю в боевой торговле, хотя достаточно много этим занимался, по выше означенным причинам - слишком мало хороших сигналов, которые пока что можно и более простыми методами микшовать (той же линейной регрессией)

Спасибо:

Church

Дата: 22.03.2012

Согласен, главная проблема - найти предикативные признаки + представить их так, чтобы ML-алгоритм нашел закономерности. Плюс, если это какой-то нелинейный паттерн, то с высокой вероятностью он затеряется на фоне шума, даже если алгоритм способен находить нелинейные зависимости.

Как это - "на верхнем уровне сигналы(которых много) микшируются через ML"?

Спасибо:

vlad1024

Дата: 22.03.2012

Church

Как это - "на верхнем уровне сигналы(которых много) микшируются через ML"?

В том же смысле, есть сигналы от каких-то моделей, которые сами по себе имеют предикативную силу. То есть к примеру выдает нам модель каждый такт сигнал, имеющий корреляцию с приращениями 0.05, и таких моделей несколько. Соответственно встает задача, как от набора "слабых моделей" получить более сильный сигнал, который к примеру имел бы корреляцию с приращениями 0.15, для этого вполне можно применять ML. То есть смешивать сигнал, от нескольких более низкоуровневых моделей.

Спасибо:

Дата: 22.03.2012

Этот прием называется boosting
boosting

Спасибо:

vlad1024

Дата: 23.03.2012

Этот прием называется boosting
boosting

не.. boosting применим к совокупности weak learners, которые каким-либо образом комбинируются в более мощный классификатор. Здесь же просто, выходы одних моделей в конечном итоге подаются на ML классификатор(который в конечном счете, строит апроксимацию взаимной плотности своих входов), чтобы их смекшировать и получить более сильный выход. А непосредственно используемый алгоритмы ML могут быть различны, может быть на основе boosting, может быть kernel-svm или еще что, это ни так важно.

Спасибо:

Church

Дата: 24.03.2012

vlad1024

Этот прием называется boosting
boosting

Boosting это не алгоритм ML, а скорее подход. Идеи очень похожи.

Мне больше интересны технологии построения моделей. Обычный time series analysis тут мало применим.
Есть идеи где их поискать?

Спасибо:

vlad1024

Дата: 25.03.2012

Church

vlad1024

Этот прием называется boosting
boosting

Скажу вещи которые лежат на поверхности. Если построить АКФ рыночного ценового ряда, то она будет тривиально(то есть нулевой для всех лагов >0), при этом мат ожидание тоже близко к нулю. Из этого можно сделать вывод:
1) что либо рынок стационарен и является случайным блужданием (либо если учитывать аномальную волатильность - мартингалом, но на нем все равно нельзя зарботать направленно)
2) либо рынок нестационарен и соответсвенно описывается нестационарными моделями
Поэтому если подразумевать под time series analysis - стационарные модели(которые все выстроены вокруг не тривиальности АКФ) то да - мало применим. Но time series analysis - достаточно обширное поле и там есть много моделей, в том числе нестационарных. Поэтому именно их и надо искать в литературе, первое что приходит в голову это: regime switching и hidden markov model. Еще простейшая модель, с кусочно постоянным средним (модель Горчакова) про которуя я писал здесь http://smart-lab.ru/blog/43277.php (в конце).

Спасибо:

Kazai Mazai

Дата: 27.06.2012

Без понимания того, что именно искать и анализировать, и того, как работают алгоритмы дата майнинга, их польза для алготрейдера сомнительна.

Но если знать, что нужно искать, то надобность в этих алгоритмах отпадает. Более того, становится понятно, почему они не применимы, и что нужно переделать, чтобы они были применимы.

Хотя, может это мне они показались неподходящими, а может неподходящие только те, с которыми приходилось иметь дело.
Последней каплей сотрудничества с прикладным софтом для датамайнинга была ситуация, когда "вот он, результат, осталось лишь просуммировать вот это". А за два дня мучений, убедился, что вот как это просуммировать нельзя, потому что так программа уж устроена.

Спасибо:

Добавить файлы через драг-н-дроп, , или вставить из буфера обмена.