К тренажеру
ВопросHardcomputer-vision-searchРеальный собес

Metric learning для похожих товаров

Как обучить embedding-модель, чтобы поиск по фото возвращал не просто визуально похожие картинки, а товарно релевантные результаты?

Короткий ответ

Нужны пары/триплеты из поведенческих и каталоговых сигналов, hard negatives из близких категорий и offline evaluation на query-photo to item retrieval.

Полный разбор

Позитивы можно брать из одинаковых SKU, вариантов одного товара, кликов/покупок после visual search, ручной разметки похожести и товарных групп. Негативы должны быть не случайными, а сложными: та же категория, похожий цвет, другой бренд/фасон, визуально близкий, но нерелевантный item.

Loss: contrastive/triplet, supervised contrastive, ArcFace-подобные варианты или dual encoder с in-batch negatives. Важно учесть category hierarchy: иногда пользователь хочет такой же товар, иногда похожий стиль. Поэтому evaluation должен иметь уровни релевантности.

Теория

Качество embedding определяется не только архитектурой, но и тем, что считается позитивом и hard negative.

Типичные ошибки

  • Учить на случайных negatives.
  • Смешать exact-match и similar-style без явной цели.
  • Оценивать только визуальную близость без товарной релевантности.

Как отвечать на собеседовании

  • Сформулируй несколько типов позитивов и объясни, какие ошибки они оптимизируют.