Датасет и labels для RecSys ML System Design

Где брать positive/negative examples для рекомендательной системы и что считать ground truth?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Ground truth строится из показов и downstream действий: click, contact, add-to-favorite, purchase/lead. Негативы должны быть shown-but-not-chosen, а не произвольные unseen item.

Полный разбор

Для RecSys dataset важны request context, список показанных кандидатов, позиция, признаки на момент показа и последующие действия пользователя. Positive labels зависят от бизнеса: click, long view, favorite, contact request, purchase, revenue. Negative labels надежнее брать из объектов, которые пользователь реально видел и не выбрал. Нельзя смешивать unseen item с негативами без поправок: пользователь мог их не видеть. Нужны time split, защита от leakage serving-time features и slice-валидация для новых item, long-tail, регионов и разных типов пользователей.