Что такое popularity bias
Popularity bias — это самоподдерживающийся перекос: популярные айтемы получают больше показов, из-за показов получают больше взаимодействий, а модель начинает считать их еще более релевантными. В итоге long tail каталога становится невидимым.
Загрузка интерактивного виджета...
Почему это не только ML-проблема
- Пользователь видит меньше разнообразия и быстрее устает от однотипной ленты.
- Новые авторы, продавцы или товары не получают шанса набрать историю.
- Marketplace может терять supply: если показы идут только лидерам, остальные уходят.
- Оффлайн метрики могут расти, потому что популярное чаще встречается в test set.
Как диагностировать
- Coverage@K: какая доля каталога вообще попадает в рекомендации.
- Gini / entropy по показам: насколько показы сконцентрированы в топе.
- Share of long-tail impressions: доля показов айтемов вне head-каталога.
- Segment metrics: качество для популярных и редких категорий отдельно.
- Exposure vs relevance: не путаем ли вероятность увидеть айтем с вероятностью его выбрать.
Методы борьбы
- Re-ranking с diversity/novelty constraints: после ranker переставляем элементы, чтобы список не был однообразным.
- Debiasing через inverse propensity weighting: корректируем обучение на вероятность показа.
- LogQ / popularity correction: штрафуем чрезмерно популярные айтемы в retrieval или loss.
- Explore buckets: выделяем часть трафика на новые и long-tail айтемы.
- Business rules с лимитами: caps на автора, бренд, категорию, повторяющиеся сущности.
Компромисс
Нельзя просто “наказать популярное”. Популярные айтемы часто реально хорошие. Цель — не убить head, а дать шанс long tail там, где это не ломает релевантность и бизнес-метрики.
Материалы
Дополнительно
Managing Popularity Bias in Recommender Systems with Personalized Re-ranking
Персонализированный re-ranking как способ уменьшать popularity bias.
Causal Inference for Recommender Systems
Каузальный взгляд на смещения в логах рекомендаций.
Eugene Yan — Serendipity and Accuracy in Recommender Systems
Практический взгляд на баланс точности, новизны и неожиданности.