К тренажеру
ВопросMediumml-productionРеальный собес

Serving VLM: latency, cost и fallback

Как выкатывать тяжелую VLM в продукт, где есть ограничения по latency и стоимости?

Короткий ответ

Использовать async/offline enrichment где возможно, cascade small-to-large models, caching, batching, quantization and graceful fallback.

Полный разбор

Не каждый VLM use case должен быть online. Для каталога и индекса можно считать captions/attributes offline. Для online запроса нужны latency budgets, model cascade, early exit, GPU batching, caching по image hash, compression/quantization and timeout fallback. Для дорогих сценариев можно включать VLM только по confidence/routing сигналу.

Мониторинг: p50/p95 latency, GPU utilization, cost per request, timeout rate, fallback rate, quality slices and incident metrics.

Теория

Production VLM design - это tradeoff между quality, latency, cost and coverage.

Типичные ошибки

  • Ставить самую большую модель на каждый запрос.
  • Не иметь timeout fallback.
  • Не считать cost per successful answer.

Как отвечать на собеседовании

  • Сразу раздели offline enrichment и online critical path.