Production loop: monitoring, retraining и active learning
Модель редких событий вышла в production. Как построить feedback loop: мониторинг, data drift, retraining и регулярную разметку?
Короткий ответ
Нужны model/data/system метрики, curated eval set, slice monitoring, human review для uncertain/hard cases, retraining cadence и versioned datasets/models with rollback.
Полный разбор
Production loop состоит из трех уровней. System metrics: latency, throughput, failures, freshness данных, cost. Data/model metrics: embedding distribution, feature drift, prediction distribution, per-event alert rate, calibration, confidence, slice metrics. Quality metrics: precision/recall на отложенной разметке, human review feedback, regression suite на critical scenarios.
Для редких событий ключевое - не ждать случайных labels. Active learning выбирает uncertain cases, high-impact false positives/false negatives, drifted slices и новые сценарии для разметки. Нужен процесс регулярного labeling/review, чтобы модель видела свежие edge cases.
Retraining должен быть воспроизводимым: versioned dataset, feature definitions, model artifacts, thresholds, evaluation report, canary/shadow mode, rollback. Для safety-critical задач новые версии должны проходить не только aggregate metric gate, но и hard-case regression tests.
Теория
ML production не заканчивается deploy-ем. Качество редких событий поддерживается через свежие labels, slice monitoring и управляемые model releases.
Типичные ошибки
- Мониторить только latency и не смотреть prediction drift.
- Не иметь curated regression set для hard cases.
- Переобучать модель без versioning и rollback.
Как отвечать на собеседовании
- Раздели system, data/model и quality monitoring.
- Назови active learning, shadow/canary и versioned artifacts.