Ревью notebook: leakage и gap между train/test
На ревью notebook для временного ряда нужно найти leakage. Что проверять в feature generation и split?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Проверяем, что все признаки считаются только из прошлого, split идет по времени, а между train/test есть gap при пересекающихся окнах.
Полный разбор
Типовые ошибки: rolling по всему датасету, scaler fit на full data, target-window пересекается с feature-window, random split, join будущих данных и использование признаков, которые в production станут доступны позже.
Gap нужен, если target или rolling features используют соседние интервалы и иначе train косвенно видит test. Хорошее ревью также проверяет reproducibility, backtest slices, feature freshness и связь offline score с proxy business или trading metric.