ВопросMediumml-productionРеальный собес

Serving VLM: latency, cost и fallback

Как выкатывать тяжелую VLM в продукт, где есть ограничения по latency и стоимости?

Короткий ответ

Использовать async/offline enrichment где возможно, cascade small-to-large models, caching, batching, quantization and graceful fallback.

Полный разбор

Не каждый VLM use case должен быть online. Для каталога и индекса можно считать captions/attributes offline. Для online запроса нужны latency budgets, model cascade, early exit, GPU batching, caching по image hash, compression/quantization and timeout fallback. Для дорогих сценариев можно включать VLM только по confidence/routing сигналу.

Мониторинг: p50/p95 latency, GPU utilization, cost per request, timeout rate, fallback rate, quality slices and incident metrics.

Теория

Production VLM design - это tradeoff между quality, latency, cost and coverage.

Типичные ошибки

Ставить самую большую модель на каждый запрос.
Не иметь timeout fallback.
Не считать cost per successful answer.

Как отвечать на собеседовании

Сразу раздели offline enrichment и online critical path.