Обязательно

Popularity Bias

Боремся с перекосом к популярным товарам — IPS, LOG-Q коррекция и другие методы

Время изучения: 17 мин

Что такое popularity bias

Popularity bias — это самоподдерживающийся перекос: популярные айтемы получают больше показов, из-за показов получают больше взаимодействий, а модель начинает считать их еще более релевантными. В итоге long tail каталога становится невидимым.

Загрузка интерактивного виджета...

Почему это не только ML-проблема

  • Пользователь видит меньше разнообразия и быстрее устает от однотипной ленты.
  • Новые авторы, продавцы или товары не получают шанса набрать историю.
  • Marketplace может терять supply: если показы идут только лидерам, остальные уходят.
  • Оффлайн метрики могут расти, потому что популярное чаще встречается в test set.

Как диагностировать

  • Coverage@K: какая доля каталога вообще попадает в рекомендации.
  • Gini / entropy по показам: насколько показы сконцентрированы в топе.
  • Share of long-tail impressions: доля показов айтемов вне head-каталога.
  • Segment metrics: качество для популярных и редких категорий отдельно.
  • Exposure vs relevance: не путаем ли вероятность увидеть айтем с вероятностью его выбрать.

Методы борьбы

  • Re-ranking с diversity/novelty constraints: после ranker переставляем элементы, чтобы список не был однообразным.
  • Debiasing через inverse propensity weighting: корректируем обучение на вероятность показа.
  • LogQ / popularity correction: штрафуем чрезмерно популярные айтемы в retrieval или loss.
  • Explore buckets: выделяем часть трафика на новые и long-tail айтемы.
  • Business rules с лимитами: caps на автора, бренд, категорию, повторяющиеся сущности.

Компромисс

Нельзя просто “наказать популярное”. Популярные айтемы часто реально хорошие. Цель — не убить head, а дать шанс long tail там, где это не ломает релевантность и бизнес-метрики.