Назад к подготовке

ВопросСредняяproduction-mlВопрос про production ML на техническом собеседовании · inDrive

Data drift и мониторинг production-модели

Что такое data drift, как его выявлять в данных и какие сигналы мониторить у ML-модели в production?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Data drift - это сдвиг распределения данных относительно обучения/валидации. Его ищут по распределениям признаков, score модели, online-метрикам, label-based качеству при задержанных таргетах и статистическим тестам вроде KS/PSI.

Полный разбор

Data drift означает, что production-данные начинают отличаться от данных, на которых модель обучали и валидировали. Это может быть covariate drift в признаках, label drift, concept drift в связи P(y|x) или поломка feature pipeline. Выявлять drift лучше слоями. Смотрим распределения признаков, missing values, частоты категорий, распределение model score, calibration, качество по delayed labels и продуктовые guardrails. KS-тесты, chi-square и PSI полезны как сигналы, но один статистический тест не заменяет мониторинг качества. В production также нужны latency, error rate, freshness данных, объем предсказаний, доля пустых/аномальных ответов и триггеры переобучения. Важно помнить, что статистический drift не всегда означает продуктовый ущерб, а деградация качества может происходить без очевидного сдвига одного признака.

Теория

Drift-мониторинг полезен только вместе с качеством модели и продуктовым влиянием.

Типичные ошибки

Смотреть только online-метрики, когда ущерб уже произошел.
Считать, что один KS-тест по каждому признаку решает drift.
Забыть про поломки feature pipeline и freshness данных.

Как отвечать на собеседовании

Разделите covariate drift, concept drift и pipeline drift.
Если интервьюер подсказывает скоринг, упомяните PSI.