Отчетность и метрики для LLM-агента

Как построить отчетность вокруг LLM-агента, чтобы понимать качество, пользу, ошибки и стоимость?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Нужны product, quality, safety и system metrics: task success, correction/escalation rate, groundedness, tool failures, latency, cost.

Полный разбор

Отчетность лучше строить по воронке: запрос принят, контекст найден, tools вызваны корректно, ответ/action прошел validation, пользователь получил результат. Quality: task success, экспертная оценка, groundedness, citation correctness и доля исправлений. Safety: hallucination rate, forbidden tool calls, доступ к данным, fallback rate. System: latency p50/p95, retries, tool errors, cost per successful task. Для анализа нужны traces: prompt version, retrieved sources, tool calls, validator verdict и финальный outcome.