Пройти собеседование: Yandex VLM final: мультимодальные сценарии, evaluation и serving

1Вопрос12 мин

Product use cases для VLM в поисковом продукте

Команда развивает мультимодальную модель для поиска и продукта вроде нейро-ответов. Какие use cases стоит выбрать и как приоритизировать?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Выбирать сценарии с понятной пользовательской болью, доступными данными и измеримым качеством: image QA, visual search, captions, multimodal query rewriting.

Подробный разбор

Приоритизация не должна начинаться с модели. Нужно разложить use cases по impact, feasibility, data availability, latency/cost and risk. Хорошие кандидаты: описание изображения для ответа, visual query understanding, генерация alt/caption, извлечение атрибутов, помощь в поисковой формулировке, grounding объектов на картинке. Для каждого сценария нужны baseline, метрики, evaluation set и fallback. Например, image captioning можно оценивать по usefulness/factuality, а visual search - по retrieval relevance.

Типичные ошибки

Внедрять VLM потому что он есть.
Не оценить latency/cost.
Смешать разные сценарии одной метрикой.

Как сказать на собеседовании

Покажи product prioritization: impact, risk, data, metrics.

2Вопрос16 мин

Переписывание мультимодального запроса

Пользователь отправляет картинку и короткий текстовый запрос. Как переписать это в поисковый запрос, который лучше работает с существующим поиском?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Извлечь grounded entities/attributes из картинки, объединить с текстовым intent и сформировать structured query или несколько query variants с confidence.

Подробный разбор

Пайплайн: image understanding, object/attribute extraction, OCR если нужен, intent parsing из текста, fusion, query generation, validation and fallback. Результат лучше делать структурированным: main entity, attributes, constraints, locale, uncertainty. Потом можно отправить несколько rewritten queries в search stack и rerank results. Риски: hallucinated attributes, неверная приоритизация текста против изображения, ambiguity, unsafe content. Нужны confidence thresholds и возможность оставить исходный запрос.

Типичные ошибки

Генерировать один свободный текст без confidence.
Игнорировать конфликт между текстом и изображением.
Не сравнить с baseline OCR/caption.

Как сказать на собеседовании

Объясни, как проверяешь, что rewrite улучшил retrieval, а не просто звучит красиво.

3Вопрос12 мин

Prompting, fine-tuning или data-centric improvement

Команда хочет улучшить качество VLM в продукте. Когда достаточно prompt engineering, когда нужен fine-tuning, а когда лучше улучшать данные?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Prompting подходит для формата и простых ошибок; fine-tuning - для устойчивого доменного поведения; data-centric работа нужна, если ошибки вызваны coverage/noise в данных.

Подробный разбор

Нужно начать с error taxonomy. Если модель знает ответ, но не соблюдает формат, помогает prompt/schema/decoding. Если продукт требует доменной терминологии, устойчивого стиля, tool use или локальных паттернов, нужен SFT/adapters. Если ошибки в редких категориях, разметке, negative examples или evaluation leakage, лучший ROI часто дает улучшение датасета. Fine-tuning имеет стоимость: infra, regressions, eval, release cadence. Prompting дешевле, но может быть хрупким.

Типичные ошибки

Fine-tune без error analysis.
Лечить data coverage prompt-ом.
Не иметь regression suite.

Как сказать на собеседовании

Сначала попроси examples ошибок и предложи taxonomy.

4Вопрос14 мин

Evaluation для описаний изображений

Как оценить качество VLM, которая генерирует описание изображения для пользователя или downstream поиска?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Нужна rubric-based оценка: factual objects/attributes, completeness, usefulness for task, safety, no hallucinations; auto-metrics только вспомогательные.

Подробный разбор

Для product caption важны не BLEU-like совпадения, а grounded correctness. Набор должен покрывать common and rare scenes, text in image, multiple objects, ambiguous categories, sensitive content. Рубрика: objects, attributes, relations, OCR, uncertainty, hallucination, verbosity, language/style and usefulness for target workflow. LLM/VLM judge можно использовать после калибровки на human labels. Для downstream поиска нужно дополнительно мерить retrieval uplift от captions/features.

Типичные ошибки

Полагаться на CIDEr/BLEU как primary metric.
Не размечать hallucinations.
Не тестировать OCR/text-heavy images.

Как сказать на собеседовании

Раздели intrinsic caption quality и downstream product metric.

5Вопрос14 мин

RLHF/DPO для product alignment VLM

Когда для мультимодальной модели нужен RLHF или DPO, и как собрать preference data для такого обучения?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Preference optimization нужен, когда есть несколько допустимых ответов и важен product preference: краткость, полезность, refusal/safety, формат и grounding.

Подробный разбор

Preference data собирается как пары ответов на один image/query: какой лучше и почему. Источники: human annotators, expert review, production feedback, synthetic candidates с hard negatives. Рубрика должна быть явной: factuality важнее красивого стиля; unsupported claim хуже неполного ответа; формат обязателен. DPO проще в запуске, RLHF сложнее и требует reward model/online safety. Риски: reward hacking, preference bias, деградация rare cases, переоптимизация под judge.

Типичные ошибки

Собирать preferences без рубрики.
Оптимизировать helpfulness ценой hallucination.
Не держать holdout для регрессий.

Как сказать на собеседовании

Покажи hierarchy критериев: safety/factuality выше стиля.

6Вопрос12 мин

Serving VLM: latency, cost и fallback

Как выкатывать тяжелую VLM в продукт, где есть ограничения по latency и стоимости?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Использовать async/offline enrichment где возможно, cascade small-to-large models, caching, batching, quantization and graceful fallback.

Подробный разбор

Не каждый VLM use case должен быть online. Для каталога и индекса можно считать captions/attributes offline. Для online запроса нужны latency budgets, model cascade, early exit, GPU batching, caching по image hash, compression/quantization and timeout fallback. Для дорогих сценариев можно включать VLM только по confidence/routing сигналу. Мониторинг: p50/p95 latency, GPU utilization, cost per request, timeout rate, fallback rate, quality slices and incident metrics.

Типичные ошибки

Ставить самую большую модель на каждый запрос.
Не иметь timeout fallback.
Не считать cost per successful answer.

Как сказать на собеседовании

Сразу раздели offline enrichment и online critical path.