Назад к подготовке

Где искать latency, quality и cost деградацию LLM-сервиса

LLM-сервис стал медленнее, хуже или дороже. Какие проверки делать?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Latency: размер input/output, batching, load, model/provider, tools. Quality: кейсы, prompt/model/retrieval drift. Cost: tokens, model choice, caching, quantization, routing.

Полный разбор

Сначала разделить тип деградации. Для latency смотреть p50/p95/p99, размер prompt, длину ответа, очередь, provider latency, tool latency, retrieval latency, cold starts и retries. Для local serving - GPU utilization, batching, KV cache, memory, quantization.

Для quality нужны traces плохих кейсов: user input, retrieved context, tool calls, prompt version, model version, output и expected behavior. Частые причины: prompt regression, model upgrade, retrieval drift, schema mismatch, новые user intents или data changes.

Cost разбирается по tokens, model mix, retry rate, tool calls, cache hit rate и routing. Снижение cost: cheaper model для простых intents, prompt compression, caching, distillation, quantization, batch/offline generation, лимиты на output length.

Теория

LLM observability должна связывать качество, latency и cost на уровне конкретного trace.

Типичные ошибки

  • Смотреть только среднюю latency без p95/p99.
  • Не логировать prompt/model/retrieval versions.
  • Экономить cost заменой модели без quality gate.