Назад к подготовке

ВопросСредняяmultimodal-searchML System Design на техническом собеседовании · Wildberries

VLM-теги как признаки для визуального поиска

Можно ли добавлять теги от VLM/image captioning модели в поиск по фото? Где они помогут, а где навредят?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

VLM-теги полезны как soft semantic features и debug/explanation layer, но их надо валидировать из-за hallucinations, taxonomy drift и category leakage.

Полный разбор

VLM может вытаскивать стиль, материал, паттерн, форму и контекст, которые плохо ловятся обычным embedding. Эти признаки можно использовать в reranker, query expansion, attribute matching или для explainability. Но в e-commerce важна точность: неверный бренд, материал или цвет приведет к плохому поиску и модерационным проблемам. Практичный вариант: ограничить VLM structured schema, делать confidence thresholds, маппить в taxonomy, хранить source/version и сравнивать uplift относительно baseline.

Теория

Мультимодальные признаки повышают semantic recall, но должны проходить grounding и product-taxonomy validation.

Типичные ошибки

Использовать свободный caption как истину.
Не версионировать VLM outputs.
Не отделять offline enrichment от online latency path.

Как отвечать на собеседовании

Скажи, что VLM-теги должны быть дополнительным сигналом, а не single source of truth.