Target для learning-to-rank из implicit feedback
Как построить target для реранкера товаров, если есть логи показов, кликов, корзины и покупок?
Короткий ответ
Использовать показы как базу, positives из click/cart/purchase, покупки весить сильнее; target может быть binary, weighted или pairwise/listwise.
Полный разбор
Единица обучения - query-user-item-impression. Негативы лучше брать из показанных, но не выбранных товаров, с поправкой на position/exposure bias. Сигналы можно взвесить: click меньше add-to-cart, add-to-cart меньше purchase, purchase можно домножать на margin или contribution profit.
После target design нужно проверить, что label доступен без leakage и что offline metric коррелирует с бизнес-целью хотя бы на исторических экспериментах.
Теория
Implicit feedback смещен позицией и экспозицией, поэтому impression logs и debiasing важнее, чем просто список покупок.
Типичные ошибки
- Брать все непокупки как negatives.
- Игнорировать position bias.
- Смешивать цели покупки и маржи без явной функции.
Как отвечать на собеседовании
- Проговори unit of training data.
- Скажи, почему нужны именно impression logs.