Data drift и мониторинг production-модели
Что такое data drift, как его выявлять в данных и какие сигналы мониторить у ML-модели в production?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Data drift - это сдвиг распределения данных относительно обучения/валидации. Его ищут по распределениям признаков, score модели, online-метрикам, label-based качеству при задержанных таргетах и статистическим тестам вроде KS/PSI.
Полный разбор
Data drift означает, что production-данные начинают отличаться от данных, на которых модель обучали и валидировали. Это может быть covariate drift в признаках, label drift, concept drift в связи P(y|x) или поломка feature pipeline.
Выявлять drift лучше слоями. Смотрим распределения признаков, missing values, частоты категорий, распределение model score, calibration, качество по delayed labels и продуктовые guardrails. KS-тесты, chi-square и PSI полезны как сигналы, но один статистический тест не заменяет мониторинг качества.
В production также нужны latency, error rate, freshness данных, объем предсказаний, доля пустых/аномальных ответов и триггеры переобучения. Важно помнить, что статистический drift не всегда означает продуктовый ущерб, а деградация качества может происходить без очевидного сдвига одного признака.
Теория
Drift-мониторинг полезен только вместе с качеством модели и продуктовым влиянием.
Типичные ошибки
- Смотреть только online-метрики, когда ущерб уже произошел.
- Считать, что один KS-тест по каждому признаку решает drift.
- Забыть про поломки feature pipeline и freshness данных.
Как отвечать на собеседовании
- Разделите covariate drift, concept drift и pipeline drift.
- Если интервьюер подсказывает скоринг, упомяните PSI.