ВопросHardmlopsРеальный собес

Production loop: monitoring, retraining и active learning

Модель редких событий вышла в production. Как построить feedback loop: мониторинг, data drift, retraining и регулярную разметку?

Короткий ответ

Нужны model/data/system метрики, curated eval set, slice monitoring, human review для uncertain/hard cases, retraining cadence и versioned datasets/models with rollback.

Полный разбор

Production loop состоит из трех уровней. System metrics: latency, throughput, failures, freshness данных, cost. Data/model metrics: embedding distribution, feature drift, prediction distribution, per-event alert rate, calibration, confidence, slice metrics. Quality metrics: precision/recall на отложенной разметке, human review feedback, regression suite на critical scenarios.

Для редких событий ключевое - не ждать случайных labels. Active learning выбирает uncertain cases, high-impact false positives/false negatives, drifted slices и новые сценарии для разметки. Нужен процесс регулярного labeling/review, чтобы модель видела свежие edge cases.

Retraining должен быть воспроизводимым: versioned dataset, feature definitions, model artifacts, thresholds, evaluation report, canary/shadow mode, rollback. Для safety-critical задач новые версии должны проходить не только aggregate metric gate, но и hard-case regression tests.

Теория

ML production не заканчивается deploy-ем. Качество редких событий поддерживается через свежие labels, slice monitoring и управляемые model releases.

Типичные ошибки

Мониторить только latency и не смотреть prediction drift.
Не иметь curated regression set для hard cases.
Переобучать модель без versioning и rollback.

Как отвечать на собеседовании

Раздели system, data/model и quality monitoring.
Назови active learning, shadow/canary и versioned artifacts.