Выбор модели для production в marketplace

Как выбирать production-модель для marketplace pricing/recommendation задачи, если offline score у сложной модели выше?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Выбор идет по offline quality, calibration, latency, stability, interpretability, retraining cost, feature freshness, monitoring and rollback, а не только по leaderboard score.

Полный разбор

Для production важна полная стоимость модели. CatBoost/LightGBM может быть предпочтительнее deep model, если дает почти тот же business proxy, быстрее отвечает, проще объясняется, дешевле retrain-ится и стабильнее на редких категориях. Критерии сравнения: offline metrics и slices, calibration, inference latency p95/p99, dependency on heavy features, freshness и missing rates, memory/cost, explainability для sellers/PM, robustness to drift, rollout complexity, monitoring and rollback. Для pricing также важны confidence intervals и безопасные fallback rules. Сложную модель можно оставить reranker или second-stage component, если она обрабатывает короткий shortlist. Если она требует дорогие online image/text encoders для каждого запроса, precompute или distillation могут быть разумнее.

Production model selection - это multi-objective optimization между качеством, надежностью, стоимостью и операционным контролем.