Какую deep learning архитектуру выбрать для временного ряда
После градиентного бустинга: если смотреть в сторону deep learning, какую архитектуру предложить для последовательных данных или временного ряда и почему?
Короткий ответ
Для последовательностей можно предложить TCN/LSTM/Transformer, но выбор зависит от длины истории, latency, объема данных и требований к интерпретируемости. Часто стартуют с агрегированных временных признаков и легкой sequence-модели.
Полный разбор
Ответ должен идти от данных. Если есть временной ряд или последовательность событий, можно использовать LSTM/GRU, TCN или Transformer. Для длинных зависимостей и большого объема данных Transformer гибче, но дороже. Для latency-sensitive задач часто разумнее TCN или компактная recurrent модель.
Нужно объяснить вход: сырые события, агрегированные окна, признаки стакана/каталога/пользователя, временные embeddings, маски, normalization. Если данные очень частые, их обычно агрегируют до разумного resolution, иначе модель будет дорогой и шумной.
Сравнение с GBDT важно: deep learning имеет смысл при больших данных, сложных последовательных паттернах и достаточной инфраструктуре. Иначе бустинг на аккуратных rolling features может быть сильнее и проще в production.
Теория
В ML System Design правильный ответ — не "беру Transformer", а выбор архитектуры под constraints: длина контекста, частота данных, объем train, latency, стоимость inference, explainability и maintenance.
Типичные ошибки
- Автоматически выбирать Transformer без обсуждения latency и данных.
- Не описать, какие именно последовательности подаются на вход.
- Не сравнить с сильным baseline на бустинге.
Как отвечать на собеседовании
- Начни с baseline: GBDT на rolling features.
- Потом предложи sequence model и явно назови, когда она должна выиграть.