ВопросMediumevaluationРеальный собес

Offline evaluation объектных ответов

Какими offline-метриками и ручной оценкой проверить качество генерируемых объектных ответов перед A/B тестом?

Короткий ответ

Считать factuality, usefulness, localization, length/style compliance и coverage; LLM judge использовать только после калибровки на human labels.

Полный разбор

Offline набор должен покрывать частотные и long-tail объекты, разные языки, ambiguous entities, stale facts и unsafe cases. Ручная оценка: factual correctness, support by evidence, user usefulness, readability, no hallucination, locale fit. Автоматика: claim support checks, length, language, toxicity, duplicate rate, source coverage.

LLM judge полезен для масштабирования, но его нужно откалибровать: agreement с экспертами, bias checks, регулярный audit samples.

Теория

Для генеративных поисковых карточек offline quality - это multi-dimensional rubric, а не одна метрика.

Типичные ошибки

Доверять LLM judge без калибровки.
Оценивать только популярные объекты.
Не измерять coverage и fallback rate.

Как отвечать на собеседовании

Назови несколько плохих кейсов датасета: ambiguous names, stale facts, low-resource locale.