Назад к подготовке

Метрики и A/B для поиска/RAG

Как оценивать качество поиска или RAG-системы offline и online?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Offline: Recall@K/MRR/NDCG для retrieval и ранжирования, faithfulness и answer relevance для RAG. Online: success rate, deflection, time-to-answer, CTR/click satisfaction, жалобы, latency, cost. A/B требует primary metric, guardrails и мощности.

Полный разбор

Для поиска сначала оценивается retrieval: нашел ли top-K правильные документы. Метрики: Recall@K, MRR, NDCG@K, coverage по типам запросов. Для RAG добавляется качество ответа: groundedness/faithfulness, answer relevance, citation correctness, refusal quality, hallucination rate.

Online-метрики зависят от продукта: доля успешных поисковых сессий, click satisfaction, отсутствие повторного запроса, time-to-answer, снижение нагрузки на поддержку, конверсия в нужное действие. Guardrails: latency, cost per request, доля пустых ответов, жалобы, нарушение permissions.

A/B нужно планировать: выбрать primary metric, посчитать MDE и длительность, проверить баланс групп и логирование. Для редких запросов часто нужен interleaving, human evaluation или replay на размеченном наборе, потому что online-сигнала мало.

Теория

RAG-оценка состоит из двух частей: правильный контекст найден и ответ действительно следует из этого контекста.

Типичные ошибки

  • Оценивать только LLM-ответ без retrieval метрик.
  • Не проверять citations и permissions.
  • Запускать A/B без MDE и стабильного логирования.