Multimodal признаки в RecSys pipeline

Как добавить текстовые и визуальные признаки в рекомендательную систему без поломки serving pipeline?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Текст/изображения кодируются offline в embeddings, версионируются и подаются в retrieval/rerank. Online слой читает готовые признаки, а не запускает тяжелые encoders на запросе.

Полный разбор

Текстовые описания, фото и другие multimodal данные обычно обрабатываются offline или nearline. Encoders создают embeddings и quality features, которые пишутся с model/version metadata. Дальше эти признаки используются для ANN retrieval, similarity features или reranker. Нужно контролировать freshness: новые объявления должны быстро получать признаки или fallback. Также важны drift и качество исходных медиа: пустые описания, плохие фото, дубли и изменившиеся категории. В online request не стоит запускать тяжелые image/text encoders без отдельного latency budget.