Как оценивать LLM-фичу бизнес-метриками
В команде делают LLM/agent feature. Как выбрать метрики качества, если обычная accuracy не показывает бизнес-ценность?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Нужно связать offline eval с пользовательским outcome: task success, time saved, manual escalations, correction rate, cost/latency и safety failures.
Полный разбор
Сначала формулируем, какую работу должна выполнить LLM-фича. Для агента это может быть "решить задачу без оператора", "найти правильный документ", "сформировать корректный action plan". Тогда метрики становятся прикладными: доля успешно завершенных задач, доля ручных эскалаций, среднее время до решения, доля исправленных пользователем ответов, cost per successful task и latency.
Offline eval нужен, но он не должен быть единственной целью. Полезно иметь gold set с экспертной разметкой, regression set для критичных кейсов, LLM-as-judge только как вспомогательный сигнал и online A/B для бизнес-эффекта.
Для production отдельно считаются safety метрики: hallucination rate на критичных вопросах, tool misuse, unauthorized data access, доля ответов с low confidence и частота fallback.
Типичные ошибки
- Свести все к BLEU/ROUGE или общему judge score.
- Не разделить quality, cost, latency и safety.
- Не завести regression set для критичных сценариев.
Как отвечать на собеседовании
- Начни с бизнес-задачи, потом переходи к offline и online метрикам.
- Покажи trade-off: качество против latency/cost.