Назад к подготовке

ВопросСложнаяllm-agentsВопрос по метрикам на техническом собеседовании · Flametree

Как оценивать LLM-фичу бизнес-метриками

В команде делают LLM/agent feature. Как выбрать метрики качества, если обычная accuracy не показывает бизнес-ценность?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Нужно связать offline eval с пользовательским outcome: task success, time saved, manual escalations, correction rate, cost/latency и safety failures.

Полный разбор

Сначала формулируем, какую работу должна выполнить LLM-фича. Для агента это может быть "решить задачу без оператора", "найти правильный документ", "сформировать корректный action plan". Тогда метрики становятся прикладными: доля успешно завершенных задач, доля ручных эскалаций, среднее время до решения, доля исправленных пользователем ответов, cost per successful task и latency. Offline eval нужен, но он не должен быть единственной целью. Полезно иметь gold set с экспертной разметкой, regression set для критичных кейсов, LLM-as-judge только как вспомогательный сигнал и online A/B для бизнес-эффекта. Для production отдельно считаются safety метрики: hallucination rate на критичных вопросах, tool misuse, unauthorized data access, доля ответов с low confidence и частота fallback.

Типичные ошибки

Свести все к BLEU/ROUGE или общему judge score.
Не разделить quality, cost, latency и safety.
Не завести regression set для критичных сценариев.

Как отвечать на собеседовании

Начни с бизнес-задачи, потом переходи к offline и online метрикам.
Покажи trade-off: качество против latency/cost.