Какие события логировать для обучения ranker
После запуска MVP какие события и признаки нужно собирать, чтобы обучить модель ранжирования user-video?
Короткий ответ
Логировать impression, позицию, контекст, click/open, watchtime, swipe, переход к товарам, add-to-cart, purchase и attributed GMV.
Полный разбор
Единица датасета - показ конкретного video candidate пользователю в конкретном request context. Нужны user_id, video_id, позиция, timestamp, источник ранжирования, признаки пользователя, видео, товаров и контекста на момент показа. Labels строятся в окнах: click, dwell/watchtime, product-list open, add-to-cart, purchase, GMV/profit.
Важно хранить именно serving-time features, иначе легко получить leakage. Негативами должны быть показанные, но не выбранные видео, а не все непоказанные кандидаты.
Теория
В RecSys данные зависят от logging policy: то, что система не показала, не является честным отрицательным примером.
Типичные ошибки
- Считать непоказанные видео негативами.
- Забыть position bias.
- Не определить attribution window.
Как отвечать на собеседовании
- Разделяй proxy labels и business labels.
- Упомяни exposure/position bias хотя бы кратко.