Назад к подготовке

Метрики ранжирования: NDCG, MRR, Precision@K и online-метрики

Какие метрики использовать для оценки ранжирования в рекомендациях или поиске?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Offline: Precision@K/Recall@K для попадания релевантных объектов, MRR для ранга первого релевантного, NDCG@K для качества порядка с учетом позиции. Online: CTR, conversion, GMV, retention и guardrails по latency, diversity и пустым выдачам.

Полный разбор

Precision@K отвечает, какая доля top-K релевантна. Recall@K отвечает, какую долю релевантных объектов удалось найти в top-K. MRR полезен, когда важно как можно раньше показать первый правильный результат. NDCG@K лучше подходит для ранжирования с graded relevance: релевантность дисконтируется по позиции, поэтому ошибка наверху выдачи дороже ошибки внизу.

Offline-метрики нужно считать на честном candidate set и проверять по срезам: новые пользователи, популярные/редкие товары, категории, регионы. Иначе модель может улучшить средний NDCG за счет популярных объектов и ухудшить coverage.

Online-метрики зависят от продукта: CTR, add-to-cart, purchase conversion, GMV, watch/listen time, retention. Guardrails: latency, empty results, complaints, diversity, novelty, share of repeated items and fallback rate.

Теория

Ranking quality нельзя доказать одной метрикой: offline-метрики помогают отладке, online A/B показывает продуктовый эффект.

Типичные ошибки

  • Оптимизировать только CTR и убить diversity или long tail.
  • Считать NDCG на слишком простом candidate set.
  • Не разделять метрики retrieval и метрики реранжирования.