Long tail и novelty у item-item baseline
Какие слабые места появляются у item-item co-occurrence baseline для корзины: long tail, новые товары, популярность и novelty?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Co-occurrence усиливает популярные товары, плохо покрывает новые/редкие items и может снижать novelty. Нужны normalization, category fallback, exploration и content features.
Полный разбор
Item-item baseline использует исторические совместные покупки, поэтому он естественно отдает преимущество товарам с большим числом взаимодействий. Новые и редкие товары получают мало соседей, а популярные товары могут появляться почти в каждой корзине, даже если они не самые релевантные.
Снижение проблем: использовать lift/PMI/cosine вместо raw counts, ограничивать dominant popular items, добавлять category-level и content-based candidates, учитывать availability, вводить diversity/novelty reranking и оставлять exploration traffic для long-tail.
Метрики должны смотреть не только общий CTR, но и coverage каталога, долю long-tail показов, novelty, repeated category rate и качество на cold-start товарах.
Теория
Popularity bias в co-occurrence возникает из самого способа сбора feedback. Без нормализации и exploration baseline может консервировать старое распределение продаж.