ВопросHardmlsd-generalРеальный собес

Какую deep learning архитектуру выбрать для временного ряда

После градиентного бустинга: если смотреть в сторону deep learning, какую архитектуру предложить для последовательных данных или временного ряда и почему?

Короткий ответ

Для последовательностей можно предложить TCN/LSTM/Transformer, но выбор зависит от длины истории, latency, объема данных и требований к интерпретируемости. Часто стартуют с агрегированных временных признаков и легкой sequence-модели.

Полный разбор

Ответ должен идти от данных. Если есть временной ряд или последовательность событий, можно использовать LSTM/GRU, TCN или Transformer. Для длинных зависимостей и большого объема данных Transformer гибче, но дороже. Для latency-sensitive задач часто разумнее TCN или компактная recurrent модель.

Нужно объяснить вход: сырые события, агрегированные окна, признаки стакана/каталога/пользователя, временные embeddings, маски, normalization. Если данные очень частые, их обычно агрегируют до разумного resolution, иначе модель будет дорогой и шумной.

Сравнение с GBDT важно: deep learning имеет смысл при больших данных, сложных последовательных паттернах и достаточной инфраструктуре. Иначе бустинг на аккуратных rolling features может быть сильнее и проще в production.

Теория

В ML System Design правильный ответ — не "беру Transformer", а выбор архитектуры под constraints: длина контекста, частота данных, объем train, latency, стоимость inference, explainability и maintenance.

Типичные ошибки

Автоматически выбирать Transformer без обсуждения latency и данных.
Не описать, какие именно последовательности подаются на вход.
Не сравнить с сильным baseline на бустинге.

Как отвечать на собеседовании

Начни с baseline: GBDT на rolling features.
Потом предложи sequence model и явно назови, когда она должна выиграть.