Production-loop для CV модели после rollout
После запуска CV модели на реальных точках появляются ошибки, новые блюда и новые условия съемки. Как построить поддержку и дообучение?
Короткий ответ
Нужен цикл мониторинга ошибок, сбора hard cases, постановки разметки, дообучения, offline/online проверки, версионирования модели и безопасного rollout на точки.
Полный разбор
После rollout CV модель почти неизбежно деградирует на новых точках: меняется меню, освещение, посуда, способы подачи, камеры и поведение людей. Поэтому production-loop должен быть частью системы, а не разовым обучением.
Минимальный loop: логировать predictions, confidence, фото с ошибками и исправления оператора; регулярно выбирать hard cases; отправлять их в разметку; дообучать модель; сравнивать с текущей версией на regression set; выкатывать постепенно и мониторить бизнес-метрики.
Для edge/on-device deployment важны формат модели, совместимость с железом, версия меню/модели и откат. Если есть несколько камер или classic CV алгоритмы, они тоже должны иметь тесты и документацию, а не жить как одноразовый notebook.
Теория
В production CV большая часть качества появляется из data loop: модель улучшается через разметку ошибок и стабильный rollout process.
Типичные ошибки
- Считать, что модель обучили один раз и забыли.
- Не логировать ошибки и confidence.
- Не иметь regression set перед выкладкой новой версии.
Как отвечать на собеседовании
- Назови active learning на ошибках.
- Раздели offline validation, staged rollout и rollback.