VLM для распознавания еды: точность vs latency
Большая VLM неплохо распознает блюда, если дать ей фото и меню, но отвечает десятки секунд. Как использовать такую модель в продукте с жестким latency?
Короткий ответ
Большую VLM лучше использовать offline: как teacher для разметки, проверки сложных кейсов, генерации pseudo-labels и анализа ошибок. Online нужна маленькая модель или специализированный VLM, дообученный на меню/еда-домене.
Полный разбор
Если пользователь стоит у кассы, 40 секунд inference недопустимы. Поэтому дорогая VLM может быть полезна не в online path, а в offline loop: помогать разметчикам, находить сложные примеры, генерировать pseudo-labels, объяснять ошибки и строить training set для более дешевой модели.
Online-path должен быть быстрым: специализированный detector/classifier/retriever, маленькая VLM, distillation от большой модели, quantization, batch/edge inference и жесткий timeout. Контекст меню конкретной точки можно заранее индексировать или кодировать, чтобы не прокидывать десятки изображений в prompt каждый раз.
В ответе важно назвать fallback: если confidence низкий, отправить на ручную проверку или показать оператору top-k вариантов, а не заставлять всех ждать большую модель.
Теория
Это типичный production trade-off: foundation model может быть качественным oracle/teacher, но продуктовый inference требует latency, cost и reliability.
Типичные ошибки
- Поставить GPT/VLM прямо в кассовый online path.
- Не предложить distillation или offline labeling loop.
- Не обсудить timeout и fallback.
Как отвечать на собеседовании
- Раздели offline teacher и online student.
- Скажи про menu-specific context, distillation и confidence fallback.