Как оценивать поиск/RAG по статьям offline и online
Как понять, что система поиска по статьям или RAG работает хорошо? Какие offline и online метрики использовать?
Короткий ответ
Offline: golden queries, relevance labels, recall@k, MRR, nDCG. Online: CTR, reformulation rate, time-to-answer, solved/not solved, escalation/fallback, user feedback и latency.
Полный разбор
Offline нужен датасет запросов и релевантных статей. Если есть graded relevance, используем nDCG@k. Если есть один правильный ответ, MRR/hit rate/recall@k. Для candidate generator особенно важен recall@k: правильная статья должна попасть в top-k до reranker.
Online метрики зависят от продукта: клик по статье, нашел ли пользователь ответ, доля повторных запросов, time-to-answer, scroll depth, переход в поддержку, thumbs up/down, fallback rate, latency p95/p99.
Для RAG отдельно оценивают retrieval и generation: принес ли retriever правильный контекст, grounded ли ответ, нет ли hallucination, корректны ли ссылки. Без разделения сложно понять, где именно деградация.
Теория
Search quality нельзя измерять одной метрикой. Нужна связка offline ranking metrics, product behavior metrics и production guardrails.
Типичные ошибки
- Смотреть только CTR и не иметь offline relevance set.
- Оценивать generation без проверки retrieval.
- Не отделить recall candidate generator от качества финального ранжирования.
Как отвечать на собеседовании
- Раздели offline, online и production metrics.
- Скажи, что для RAG retrieval и answer quality оцениваются отдельно.