Multimodal query rewriting
Пользователь отправляет картинку и короткий текстовый запрос. Как переписать это в поисковый запрос, который лучше работает с существующим поиском?
Короткий ответ
Извлечь grounded entities/attributes из картинки, объединить с текстовым intent и сформировать structured query или несколько query variants с confidence.
Полный разбор
Пайплайн: image understanding, object/attribute extraction, OCR если нужен, intent parsing из текста, fusion, query generation, validation and fallback. Результат лучше делать структурированным: main entity, attributes, constraints, locale, uncertainty. Потом можно отправить несколько rewritten queries в search stack и rerank results.
Риски: hallucinated attributes, неверная приоритизация текста против изображения, ambiguity, unsafe content. Нужны confidence thresholds и возможность оставить исходный запрос.
Теория
Query rewriting должно сохранять user intent и добавлять только supported визуальные факты.
Типичные ошибки
- Генерировать один свободный текст без confidence.
- Игнорировать конфликт между текстом и изображением.
- Не сравнить с baseline OCR/caption.
Как отвечать на собеседовании
- Объясни, как проверяешь, что rewrite улучшил retrieval, а не просто звучит красиво.