Почему time-series модель может развалиться после хорошего offline
Модель на временном ряде показывает хороший offline score, но в реальности не работает. Какие причины проверить первыми?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Первое - leakage, random split, неверный prediction horizon, признаки из будущего и train/test режим, который не имитирует реальный момент решения.
Полный разбор
Для временных рядов offline должен имитировать будущее: train на прошлом, validation на будущем. Нужно проверить rolling features, normalization, joins, target shift и любые признаки, которые используют данные после момента решения.
Хороший random split почти ничего не доказывает: соседние точки временного ряда похожи, окна могут пересекаться, а scaler или агрегаты могли быть fit на full dataset. Отдельно проверяют drift, costs/latency и gap между моментом наблюдения признаков и моментом предсказания.