Назад к подготовке

ВопросСложнаяmultimodal-searchML System Design на техническом собеседовании · Яндекс

Переписывание мультимодального запроса

Пользователь отправляет картинку и короткий текстовый запрос. Как переписать это в поисковый запрос, который лучше работает с существующим поиском?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Извлечь grounded entities/attributes из картинки, объединить с текстовым intent и сформировать structured query или несколько query variants с confidence.

Полный разбор

Пайплайн: image understanding, object/attribute extraction, OCR если нужен, intent parsing из текста, fusion, query generation, validation and fallback. Результат лучше делать структурированным: main entity, attributes, constraints, locale, uncertainty. Потом можно отправить несколько rewritten queries в search stack и rerank results. Риски: hallucinated attributes, неверная приоритизация текста против изображения, ambiguity, unsafe content. Нужны confidence thresholds и возможность оставить исходный запрос.

Теория

Query rewriting должно сохранять user intent и добавлять только supported визуальные факты.

Типичные ошибки

Генерировать один свободный текст без confidence.
Игнорировать конфликт между текстом и изображением.
Не сравнить с baseline OCR/caption.

Как отвечать на собеседовании

Объясни, как проверяешь, что rewrite улучшил retrieval, а не просто звучит красиво.