Датасет и labels для RecSys ML System Design
Где брать positive/negative examples для рекомендательной системы и что считать ground truth?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Ground truth строится из показов и downstream действий: click, contact, add-to-favorite, purchase/lead. Негативы должны быть shown-but-not-chosen, а не произвольные unseen item.
Полный разбор
Для RecSys dataset важны request context, список показанных кандидатов, позиция, признаки на момент показа и последующие действия пользователя. Positive labels зависят от бизнеса: click, long view, favorite, contact request, purchase, revenue. Negative labels надежнее брать из объектов, которые пользователь реально видел и не выбрал.
Нельзя смешивать unseen item с негативами без поправок: пользователь мог их не видеть. Нужны time split, защита от leakage serving-time features и slice-валидация для новых item, long-tail, регионов и разных типов пользователей.