Offline evaluation объектных ответов
Какими offline-метриками и ручной оценкой проверить качество генерируемых объектных ответов перед A/B тестом?
Короткий ответ
Считать factuality, usefulness, localization, length/style compliance и coverage; LLM judge использовать только после калибровки на human labels.
Полный разбор
Offline набор должен покрывать частотные и long-tail объекты, разные языки, ambiguous entities, stale facts и unsafe cases. Ручная оценка: factual correctness, support by evidence, user usefulness, readability, no hallucination, locale fit. Автоматика: claim support checks, length, language, toxicity, duplicate rate, source coverage.
LLM judge полезен для масштабирования, но его нужно откалибровать: agreement с экспертами, bias checks, регулярный audit samples.
Теория
Для генеративных поисковых карточек offline quality - это multi-dimensional rubric, а не одна метрика.
Типичные ошибки
- Доверять LLM judge без калибровки.
- Оценивать только популярные объекты.
- Не измерять coverage и fallback rate.
Как отвечать на собеседовании
- Назови несколько плохих кейсов датасета: ambiguous names, stale facts, low-resource locale.