Где искать latency, quality и cost деградацию LLM-сервиса
LLM-сервис стал медленнее, хуже или дороже. Какие проверки делать?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Latency: размер input/output, batching, load, model/provider, tools. Quality: кейсы, prompt/model/retrieval drift. Cost: tokens, model choice, caching, quantization, routing.
Полный разбор
Сначала разделить тип деградации. Для latency смотреть p50/p95/p99, размер prompt, длину ответа, очередь, provider latency, tool latency, retrieval latency, cold starts и retries. Для local serving - GPU utilization, batching, KV cache, memory, quantization.
Для quality нужны traces плохих кейсов: user input, retrieved context, tool calls, prompt version, model version, output и expected behavior. Частые причины: prompt regression, model upgrade, retrieval drift, schema mismatch, новые user intents или data changes.
Cost разбирается по tokens, model mix, retry rate, tool calls, cache hit rate и routing. Снижение cost: cheaper model для простых intents, prompt compression, caching, distillation, quantization, batch/offline generation, лимиты на output length.
Теория
LLM observability должна связывать качество, latency и cost на уровне конкретного trace.
Типичные ошибки
- Смотреть только среднюю latency без p95/p99.
- Не логировать prompt/model/retrieval versions.
- Экономить cost заменой модели без quality gate.