Назад к подготовке

Offline и online-метрики для рекомендаций и поиска

Какие метрики смотреть, когда выкатываешь новую рекомендательную или поисковую модель?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Offline смотреть метрики ранжирования или классификации по задаче: Recall@K, NDCG, pairwise accuracy, ROC AUC, PR AUC, precision/recall по порогу. Online - CTR, conversion, revenue/GMV, add-to-cart и guardrails по latency, diversity, coverage.

Полный разбор

Если модель ранжирует список, нужны метрики порядка: NDCG@K, MRR, Recall@K, Precision@K или pairwise accuracy. Если модель предсказывает вероятность действия, полезны ROC AUC, PR AUC, logloss, calibration и precision/recall при рабочем пороге. При дисбалансе PR AUC и slice-метрики часто информативнее ROC AUC.

Offline-метрика должна считаться на данных, похожих на прод: правильный candidate set, time split, срезы по категориям, новым товарам и новым пользователям. После этого нужен online A/B, потому что offline relevance не равна бизнес-эффекту.

Online primary metric выбирается по месту продукта: CTR, add-to-cart, conversion, GMV, revenue, retention. Guardrails: latency, empty results, complaints, diversity, novelty, long-tail exposure, share of unavailable items.

Теория

Offline-метрики ускоряют итерации, но окончательное решение по рекомендательной модели принимает online-эксперимент.

Типичные ошибки

  • Сравнивать AUC моделей, которые потом используются как ranker top-K.
  • Не проверять качество на новых и редких item.
  • Игнорировать guardrails и смотреть только CTR.