Open vocabulary цвета и атрибутов
Каталог содержит много цветов и текстовых описаний, а пользователи ищут по фото. Как извлекать и использовать цветовые атрибуты, если словарь не полностью закрыт?
Короткий ответ
Совместить закрытую taxonomy для фильтров с open-vocabulary embeddings/VLM для long tail, а качество проверять на retrieval и attribute precision.
Полный разбор
Для продовой навигации нужен нормализованный словарь цветов: черный, белый, красный, бежевый и т.п. Но реальные фото дают оттенки, паттерны и маркетинговые названия. Поэтому стоит иметь несколько слоев: CV-классификатор в базовую taxonomy, цветовые features из изображения, текстовые/VLM-теги для long tail и mapper в canonical attributes.
В visual search цвет может быть hard filter, soft feature в reranker или explanation. Риски: освещение, фон, multi-color items, разные категории и seller metadata noise.
Теория
Open vocabulary удобно для recall и объяснений, но для UX-фильтров все равно нужна стабильная canonical taxonomy.
Типичные ошибки
- Считать seller color source of truth.
- Делать цвет жестким фильтром без учета освещения.
- Не разделять single-color и pattern/multicolor товары.
Как отвечать на собеседовании
- Покажи, где цвет участвует как constraint, а где как soft signal.