Единое embedding space для текста и изображений

Как объединить текстовые и визуальные сигналы в одном retrieval/ranking пространстве?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Обычно используют contrastive или two-tower представления, где текст и изображение проецируются в совместимое пространство, а дальше retrieval работает по cosine/dot-product.

Полный разбор

Единое пространство нужно, чтобы текстовый запрос, описание товара и изображение можно было сравнивать одной similarity-функцией. Базовый подход - CLIP-like contrastive pretraining или доменный two-tower: image encoder, text encoder и projection heads в общий embedding dimension. Для продакшена важны calibration и доменная дообученность. Если текст и фото имеют разные распределения, retrieval может начать предпочитать один modality. Поэтому нужны offline пары, hard negatives, контроль категорий и online metrics по сценариям: visual search, related items, recommendations.