Как оценивать поиск/RAG по статьям offline и online
Как понять, что система поиска по статьям или RAG работает хорошо? Какие offline и online метрики использовать?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Offline нужны эталонные запросы, разметка релевантности, Recall@K, MRR и nDCG. Online смотрим CTR, повторные формулировки, время до ответа, solved/not solved, эскалации, fallback, обратную связь и latency.
Полный разбор
Offline нужен датасет запросов и релевантных статей. Если есть graded relevance, используем nDCG@k. Если у запроса есть одна целевая статья, подходят MRR/hit rate/recall@k. Для candidate generator особенно важен recall@k: нужная статья должна попасть в top-k до reranker.
Online метрики зависят от продукта: клик по статье, нашел ли пользователь ответ, доля повторных запросов, time-to-answer, scroll depth, переход в поддержку, thumbs up/down, fallback rate, latency p95/p99.
Для RAG отдельно оценивают retrieval и generation: принес ли retriever правильный контекст, grounded ли ответ, нет ли hallucination, корректны ли ссылки. Без разделения сложно понять, где именно деградация.
Теория
Search quality нельзя измерять одной метрикой. Нужна связка offline ranking metrics, product behavior metrics и production guardrails.
Типичные ошибки
- Смотреть только CTR и не иметь offline relevance set.
- Оценивать generation без проверки retrieval.
- Не отделить recall candidate generator от качества финального ранжирования.
Как отвечать на собеседовании
- Раздели offline, online и production metrics.
- Скажи, что для RAG retrieval и answer quality оцениваются отдельно.