К тренажеру
ВопросHardcomputer-visionМой собес

VLM для распознавания еды: точность vs latency

Большая VLM неплохо распознает блюда, если дать ей фото и меню, но отвечает десятки секунд. Как использовать такую модель в продукте с жестким latency?

Короткий ответ

Большую VLM лучше использовать offline: как teacher для разметки, проверки сложных кейсов, генерации pseudo-labels и анализа ошибок. Online нужна маленькая модель или специализированный VLM, дообученный на меню/еда-домене.

Полный разбор

Если пользователь стоит у кассы, 40 секунд inference недопустимы. Поэтому дорогая VLM может быть полезна не в online path, а в offline loop: помогать разметчикам, находить сложные примеры, генерировать pseudo-labels, объяснять ошибки и строить training set для более дешевой модели.

Online-path должен быть быстрым: специализированный detector/classifier/retriever, маленькая VLM, distillation от большой модели, quantization, batch/edge inference и жесткий timeout. Контекст меню конкретной точки можно заранее индексировать или кодировать, чтобы не прокидывать десятки изображений в prompt каждый раз.

В ответе важно назвать fallback: если confidence низкий, отправить на ручную проверку или показать оператору top-k вариантов, а не заставлять всех ждать большую модель.

Теория

Это типичный production trade-off: foundation model может быть качественным oracle/teacher, но продуктовый inference требует latency, cost и reliability.

Типичные ошибки

  • Поставить GPT/VLM прямо в кассовый online path.
  • Не предложить distillation или offline labeling loop.
  • Не обсудить timeout и fallback.

Как отвечать на собеседовании

  • Раздели offline teacher и online student.
  • Скажи про menu-specific context, distillation и confidence fallback.