Ревью notebook: leakage и gap между train/test

На ревью notebook для временного ряда нужно найти leakage. Что проверять в feature generation и split?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Проверяем, что все признаки считаются только из прошлого, split идет по времени, а между train/test есть gap при пересекающихся окнах.

Полный разбор

Типовые ошибки: rolling по всему датасету, scaler fit на full data, target-window пересекается с feature-window, random split, join будущих данных и использование признаков, которые в production станут доступны позже. Gap нужен, если target или rolling features используют соседние интервалы и иначе train косвенно видит test. Хорошее ревью также проверяет reproducibility, backtest slices, feature freshness и связь offline score с proxy business или trading metric.