Назад к подготовке

ВопросЛегкаяproductionВопрос про production ML на техническом собеседовании · Satel Generation

Production-readiness ML-системы

Как проверить, что ML-система готова к production: какие контракты, rollout, мониторинг, rollback и quality gates нужны перед запуском?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Нужно зафиксировать service contract, входы/выходы, качество на regression set, latency/cost SLO, canary или shadow rollout, мониторинг данных/модели/сервиса и понятный rollback.

Полный разбор

Production-readiness начинается с контракта системы: какие входы принимает сервис или batch job, какие выходы возвращает, какие ошибки допустимы, кто потребляет результат и какое действие продукта от него зависит. Для RAG это retrieval, reranking, context assembly, generation и citations; для moderation - score, threshold, policy layer, ручная очередь и audit logs. Перед rollout нужны quality gates: offline regression set, проверка edge cases, data validation, совместимость feature schema или prompt/config versions, нагрузочный тест и бюджет latency/cost. Если модель меняет user-facing действие, запуск лучше делать через shadow, canary или ограниченный процент трафика с явными stop conditions. В эксплуатации надо мониторить не только CPU и ошибки API. Нужны freshness и coverage данных, missing features, drift, качество по delayed labels или ручной выборке, fallback rate, latency по стадиям, стоимость inference, версии модели/индекса/prompt и trace id для разбора ошибок. Rollback должен быть заранее понятен: вернуть старую модель, старый индекс, старый threshold или отключить автоматическое действие.

Теория

Production ML отличается от offline эксперимента тем, что модель становится частью продукта или операционного процесса. Поэтому readiness определяется контрактами, rollout-планом, observability и обратимым релизом.

Типичные ошибки

Говорить только про качество модели на offline-выборке.
Не назвать, какое действие продукта зависит от предсказания.
Не иметь rollback-плана для модели, индекса, threshold или prompt/config.

Как отвечать на собеседовании

Структурируй ответ как checklist: contract, gates, rollout, monitoring, rollback.
Приводи RAG или moderation как пример только после общей схемы.