Metric learning для похожих товаров
Как обучить embedding-модель, чтобы поиск по фото возвращал не просто визуально похожие картинки, а товарно релевантные результаты?
Короткий ответ
Нужны пары/триплеты из поведенческих и каталоговых сигналов, hard negatives из близких категорий и offline evaluation на query-photo to item retrieval.
Полный разбор
Позитивы можно брать из одинаковых SKU, вариантов одного товара, кликов/покупок после visual search, ручной разметки похожести и товарных групп. Негативы должны быть не случайными, а сложными: та же категория, похожий цвет, другой бренд/фасон, визуально близкий, но нерелевантный item.
Loss: contrastive/triplet, supervised contrastive, ArcFace-подобные варианты или dual encoder с in-batch negatives. Важно учесть category hierarchy: иногда пользователь хочет такой же товар, иногда похожий стиль. Поэтому evaluation должен иметь уровни релевантности.
Теория
Качество embedding определяется не только архитектурой, но и тем, что считается позитивом и hard negative.
Типичные ошибки
- Учить на случайных negatives.
- Смешать exact-match и similar-style без явной цели.
- Оценивать только визуальную близость без товарной релевантности.
Как отвечать на собеседовании
- Сформулируй несколько типов позитивов и объясни, какие ошибки они оптимизируют.