Time grid и признаки из нерегулярных HFT событий
Как построить feature matrix на регулярной 100 ms сетке из нерегулярных trades и order book events?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Сетка задает decision timestamps; state features forward-fill-ятся из последнего стакана, trades агрегируются только из прошлого окна.
Полный разбор
Сначала выбирается регулярная сетка timestamp-ов, например каждые 100 ms. Для order book state на каждую точку берется последний известный snapshot не позже timestamp: best bid/ask, mid, spread, imbalance и depth. Для trades считаются rolling или bucket aggregations за прошлые окна: count, volume, signed volume, VWAP, max/min price.
Нельзя использовать события после decision timestamp. Target должен быть смещен в будущее, например future mid-price return через заданный horizon. Для train/test split нужен temporal split с gap, иначе rolling windows и forward-fill могут протащить leakage между выборками.