Product use cases для VLM в поисковом продукте
Команда развивает мультимодальную модель для поиска и продукта вроде нейро-ответов. Какие use cases стоит выбрать и как приоритизировать?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Выбирать сценарии с понятной пользовательской болью, доступными данными и измеримым качеством: image QA, visual search, captions, multimodal query rewriting.
Подробный разбор
Приоритизация не должна начинаться с модели. Нужно разложить use cases по impact, feasibility, data availability, latency/cost and risk. Хорошие кандидаты: описание изображения для ответа, visual query understanding, генерация alt/caption, извлечение атрибутов, помощь в поисковой формулировке, grounding объектов на картинке.
Для каждого сценария нужны baseline, метрики, evaluation set и fallback. Например, image captioning можно оценивать по usefulness/factuality, а visual search - по retrieval relevance.
Типичные ошибки
- Внедрять VLM потому что он есть.
- Не оценить latency/cost.
- Смешать разные сценарии одной метрикой.
Как сказать на собеседовании
- Покажи product prioritization: impact, risk, data, metrics.
Переписывание мультимодального запроса
Пользователь отправляет картинку и короткий текстовый запрос. Как переписать это в поисковый запрос, который лучше работает с существующим поиском?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Извлечь grounded entities/attributes из картинки, объединить с текстовым intent и сформировать structured query или несколько query variants с confidence.
Подробный разбор
Пайплайн: image understanding, object/attribute extraction, OCR если нужен, intent parsing из текста, fusion, query generation, validation and fallback. Результат лучше делать структурированным: main entity, attributes, constraints, locale, uncertainty. Потом можно отправить несколько rewritten queries в search stack и rerank results.
Риски: hallucinated attributes, неверная приоритизация текста против изображения, ambiguity, unsafe content. Нужны confidence thresholds и возможность оставить исходный запрос.
Типичные ошибки
- Генерировать один свободный текст без confidence.
- Игнорировать конфликт между текстом и изображением.
- Не сравнить с baseline OCR/caption.
Как сказать на собеседовании
- Объясни, как проверяешь, что rewrite улучшил retrieval, а не просто звучит красиво.
Prompting, fine-tuning или data-centric improvement
Команда хочет улучшить качество VLM в продукте. Когда достаточно prompt engineering, когда нужен fine-tuning, а когда лучше улучшать данные?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Prompting подходит для формата и простых ошибок; fine-tuning - для устойчивого доменного поведения; data-centric работа нужна, если ошибки вызваны coverage/noise в данных.
Подробный разбор
Нужно начать с error taxonomy. Если модель знает ответ, но не соблюдает формат, помогает prompt/schema/decoding. Если продукт требует доменной терминологии, устойчивого стиля, tool use или локальных паттернов, нужен SFT/adapters. Если ошибки в редких категориях, разметке, negative examples или evaluation leakage, лучший ROI часто дает улучшение датасета.
Fine-tuning имеет стоимость: infra, regressions, eval, release cadence. Prompting дешевле, но может быть хрупким.
Типичные ошибки
- Fine-tune без error analysis.
- Лечить data coverage prompt-ом.
- Не иметь regression suite.
Как сказать на собеседовании
- Сначала попроси examples ошибок и предложи taxonomy.
Evaluation для описаний изображений
Как оценить качество VLM, которая генерирует описание изображения для пользователя или downstream поиска?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Нужна rubric-based оценка: factual objects/attributes, completeness, usefulness for task, safety, no hallucinations; auto-metrics только вспомогательные.
Подробный разбор
Для product caption важны не BLEU-like совпадения, а grounded correctness. Набор должен покрывать common and rare scenes, text in image, multiple objects, ambiguous categories, sensitive content. Рубрика: objects, attributes, relations, OCR, uncertainty, hallucination, verbosity, language/style and usefulness for target workflow.
LLM/VLM judge можно использовать после калибровки на human labels. Для downstream поиска нужно дополнительно мерить retrieval uplift от captions/features.
Типичные ошибки
- Полагаться на CIDEr/BLEU как primary metric.
- Не размечать hallucinations.
- Не тестировать OCR/text-heavy images.
Как сказать на собеседовании
- Раздели intrinsic caption quality и downstream product metric.
RLHF/DPO для product alignment VLM
Когда для мультимодальной модели нужен RLHF или DPO, и как собрать preference data для такого обучения?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Preference optimization нужен, когда есть несколько допустимых ответов и важен product preference: краткость, полезность, refusal/safety, формат и grounding.
Подробный разбор
Preference data собирается как пары ответов на один image/query: какой лучше и почему. Источники: human annotators, expert review, production feedback, synthetic candidates с hard negatives. Рубрика должна быть явной: factuality важнее красивого стиля; unsupported claim хуже неполного ответа; формат обязателен.
DPO проще в запуске, RLHF сложнее и требует reward model/online safety. Риски: reward hacking, preference bias, деградация rare cases, переоптимизация под judge.
Типичные ошибки
- Собирать preferences без рубрики.
- Оптимизировать helpfulness ценой hallucination.
- Не держать holdout для регрессий.
Как сказать на собеседовании
- Покажи hierarchy критериев: safety/factuality выше стиля.
Serving VLM: latency, cost и fallback
Как выкатывать тяжелую VLM в продукт, где есть ограничения по latency и стоимости?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Использовать async/offline enrichment где возможно, cascade small-to-large models, caching, batching, quantization and graceful fallback.
Подробный разбор
Не каждый VLM use case должен быть online. Для каталога и индекса можно считать captions/attributes offline. Для online запроса нужны latency budgets, model cascade, early exit, GPU batching, caching по image hash, compression/quantization and timeout fallback. Для дорогих сценариев можно включать VLM только по confidence/routing сигналу.
Мониторинг: p50/p95 latency, GPU utilization, cost per request, timeout rate, fallback rate, quality slices and incident metrics.
Типичные ошибки
- Ставить самую большую модель на каждый запрос.
- Не иметь timeout fallback.
- Не считать cost per successful answer.
Как сказать на собеседовании
- Сразу раздели offline enrichment и online critical path.