К тренажеру
ВопросMediummlsd-recsysРеальный собес

Какие события логировать для обучения ranker

После запуска MVP какие события и признаки нужно собирать, чтобы обучить модель ранжирования user-video?

Короткий ответ

Логировать impression, позицию, контекст, click/open, watchtime, swipe, переход к товарам, add-to-cart, purchase и attributed GMV.

Полный разбор

Единица датасета - показ конкретного video candidate пользователю в конкретном request context. Нужны user_id, video_id, позиция, timestamp, источник ранжирования, признаки пользователя, видео, товаров и контекста на момент показа. Labels строятся в окнах: click, dwell/watchtime, product-list open, add-to-cart, purchase, GMV/profit.

Важно хранить именно serving-time features, иначе легко получить leakage. Негативами должны быть показанные, но не выбранные видео, а не все непоказанные кандидаты.

Теория

В RecSys данные зависят от logging policy: то, что система не показала, не является честным отрицательным примером.

Типичные ошибки

  • Считать непоказанные видео негативами.
  • Забыть position bias.
  • Не определить attribution window.

Как отвечать на собеседовании

  • Разделяй proxy labels и business labels.
  • Упомяни exposure/position bias хотя бы кратко.