Назад к подготовке

Как оценивать LLM-фичу бизнес-метриками

В команде делают LLM/agent feature. Как выбрать метрики качества, если обычная accuracy не показывает бизнес-ценность?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Нужно связать offline eval с пользовательским outcome: task success, time saved, manual escalations, correction rate, cost/latency и safety failures.

Полный разбор

Сначала формулируем, какую работу должна выполнить LLM-фича. Для агента это может быть "решить задачу без оператора", "найти правильный документ", "сформировать корректный action plan". Тогда метрики становятся прикладными: доля успешно завершенных задач, доля ручных эскалаций, среднее время до решения, доля исправленных пользователем ответов, cost per successful task и latency.

Offline eval нужен, но он не должен быть единственной целью. Полезно иметь gold set с экспертной разметкой, regression set для критичных кейсов, LLM-as-judge только как вспомогательный сигнал и online A/B для бизнес-эффекта.

Для production отдельно считаются safety метрики: hallucination rate на критичных вопросах, tool misuse, unauthorized data access, доля ответов с low confidence и частота fallback.

Типичные ошибки

  • Свести все к BLEU/ROUGE или общему judge score.
  • Не разделить quality, cost, latency и safety.
  • Не завести regression set для критичных сценариев.

Как отвечать на собеседовании

  • Начни с бизнес-задачи, потом переходи к offline и online метрикам.
  • Покажи trade-off: качество против latency/cost.