Метрики и A/B для поиска/RAG
Как оценивать качество поиска или RAG-системы offline и online?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Offline: Recall@K/MRR/NDCG для retrieval и ранжирования, faithfulness и answer relevance для RAG. Online: success rate, deflection, time-to-answer, CTR/click satisfaction, жалобы, latency, cost. A/B требует primary metric, guardrails и мощности.
Полный разбор
Для поиска сначала оценивается retrieval: нашел ли top-K правильные документы. Метрики: Recall@K, MRR, NDCG@K, coverage по типам запросов. Для RAG добавляется качество ответа: groundedness/faithfulness, answer relevance, citation correctness, refusal quality, hallucination rate.
Online-метрики зависят от продукта: доля успешных поисковых сессий, click satisfaction, отсутствие повторного запроса, time-to-answer, снижение нагрузки на поддержку, конверсия в нужное действие. Guardrails: latency, cost per request, доля пустых ответов, жалобы, нарушение permissions.
A/B нужно планировать: выбрать primary metric, посчитать MDE и длительность, проверить баланс групп и логирование. Для редких запросов часто нужен interleaving, human evaluation или replay на размеченном наборе, потому что online-сигнала мало.
Теория
RAG-оценка состоит из двух частей: правильный контекст найден и ответ действительно следует из этого контекста.
Типичные ошибки
- Оценивать только LLM-ответ без retrieval метрик.
- Не проверять citations и permissions.
- Запускать A/B без MDE и стабильного логирования.