Метрики ранжирования: NDCG, MRR, Precision@K и online-метрики
Какие метрики использовать для оценки ранжирования в рекомендациях или поиске?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Offline: Precision@K/Recall@K для попадания релевантных объектов, MRR для ранга первого релевантного, NDCG@K для качества порядка с учетом позиции. Online: CTR, conversion, GMV, retention и guardrails по latency, diversity и пустым выдачам.
Полный разбор
Precision@K отвечает, какая доля top-K релевантна. Recall@K отвечает, какую долю релевантных объектов удалось найти в top-K. MRR полезен, когда важно как можно раньше показать первый правильный результат. NDCG@K лучше подходит для ранжирования с graded relevance: релевантность дисконтируется по позиции, поэтому ошибка наверху выдачи дороже ошибки внизу.
Offline-метрики нужно считать на честном candidate set и проверять по срезам: новые пользователи, популярные/редкие товары, категории, регионы. Иначе модель может улучшить средний NDCG за счет популярных объектов и ухудшить coverage.
Online-метрики зависят от продукта: CTR, add-to-cart, purchase conversion, GMV, watch/listen time, retention. Guardrails: latency, empty results, complaints, diversity, novelty, share of repeated items and fallback rate.
Теория
Ranking quality нельзя доказать одной метрикой: offline-метрики помогают отладке, online A/B показывает продуктовый эффект.
Типичные ошибки
- Оптимизировать только CTR и убить diversity или long tail.
- Считать NDCG на слишком простом candidate set.
- Не разделять метрики retrieval и метрики реранжирования.