Назад к подготовке
ВопросСредняяrecsys-trainingМатериалы интервью · Wildberries

Negative sampling и in-batch negatives

Какие бывают negative sampling стратегии в metric learning/RecSys и зачем нужны in-batch negatives?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Негативы бывают random, popularity-based, hard и in-batch; in-batch использует positives других примеров batch как negatives почти бесплатно.

Полный разбор

Random negatives дешевые, но часто слишком легкие. Popularity-based negatives учат отличать популярные, но нерелевантные товары. Hard negatives близки по тексту, категории или embedding, но не являются правильным ответом, поэтому дают более сильный сигнал.

In-batch negatives берут объекты из других пар внутри batch: для anchor positive из других строк считаются negative candidates. Это эффективно, но требует аккуратности: в batch могут быть false negatives, например товар действительно релевантен пользователю, просто не был выбран в этом событии.