Назад к подготовке

ВопросСложнаяcomputer-vision-searchML System Design на техническом собеседовании · Wildberries

Metric learning для похожих товаров

Как обучить embedding-модель, чтобы поиск по фото возвращал не просто визуально похожие картинки, а товарно релевантные результаты?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Нужны пары/триплеты из поведенческих и каталоговых сигналов, hard negatives из близких категорий и offline evaluation на query-photo to item retrieval.

Полный разбор

Позитивы можно брать из одинаковых SKU, вариантов одного товара, кликов/покупок после visual search, ручной разметки похожести и товарных групп. Негативы должны быть не случайными, а сложными: та же категория, похожий цвет, другой бренд/фасон, визуально близкий, но нерелевантный item. Loss: contrastive/triplet, supervised contrastive, ArcFace-подобные варианты или dual encoder с in-batch negatives. Важно учесть category hierarchy: иногда пользователь хочет такой же товар, иногда похожий стиль. Поэтому evaluation должен иметь уровни релевантности.

Теория

Качество embedding определяется не только архитектурой, но и тем, что считается позитивом и hard negative.

Типичные ошибки

Учить на случайных negatives.
Смешать exact-match и similar-style без явной цели.
Оценивать только визуальную близость без товарной релевантности.

Как отвечать на собеседовании

Сформулируй несколько типов позитивов и объясни, какие ошибки они оптимизируют.