Serving VLM: latency, cost и fallback
Как выкатывать тяжелую VLM в продукт, где есть ограничения по latency и стоимости?
Короткий ответ
Использовать async/offline enrichment где возможно, cascade small-to-large models, caching, batching, quantization and graceful fallback.
Полный разбор
Не каждый VLM use case должен быть online. Для каталога и индекса можно считать captions/attributes offline. Для online запроса нужны latency budgets, model cascade, early exit, GPU batching, caching по image hash, compression/quantization and timeout fallback. Для дорогих сценариев можно включать VLM только по confidence/routing сигналу.
Мониторинг: p50/p95 latency, GPU utilization, cost per request, timeout rate, fallback rate, quality slices and incident metrics.
Теория
Production VLM design - это tradeoff между quality, latency, cost and coverage.
Типичные ошибки
- Ставить самую большую модель на каждый запрос.
- Не иметь timeout fallback.
- Не считать cost per successful answer.
Как отвечать на собеседовании
- Сразу раздели offline enrichment и online critical path.