К тренажеру
ВопросHardmultimodal-searchРеальный собес

Multimodal query rewriting

Пользователь отправляет картинку и короткий текстовый запрос. Как переписать это в поисковый запрос, который лучше работает с существующим поиском?

Короткий ответ

Извлечь grounded entities/attributes из картинки, объединить с текстовым intent и сформировать structured query или несколько query variants с confidence.

Полный разбор

Пайплайн: image understanding, object/attribute extraction, OCR если нужен, intent parsing из текста, fusion, query generation, validation and fallback. Результат лучше делать структурированным: main entity, attributes, constraints, locale, uncertainty. Потом можно отправить несколько rewritten queries в search stack и rerank results.

Риски: hallucinated attributes, неверная приоритизация текста против изображения, ambiguity, unsafe content. Нужны confidence thresholds и возможность оставить исходный запрос.

Теория

Query rewriting должно сохранять user intent и добавлять только supported визуальные факты.

Типичные ошибки

  • Генерировать один свободный текст без confidence.
  • Игнорировать конфликт между текстом и изображением.
  • Не сравнить с baseline OCR/caption.

Как отвечать на собеседовании

  • Объясни, как проверяешь, что rewrite улучшил retrieval, а не просто звучит красиво.