Семейства RecSys-алгоритмов и cold start
Какие базовые семейства алгоритмов есть в рекомендациях и что делать с cold start?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Базовые семьи: popularity/business rules, collaborative filtering, content-based модели и гибридные каскады. Cold start закрывают контентными признаками, анкетой/контекстом, популярным fallback и exploration.
Полный разбор
Самый простой слой - популярное, свежесть, бизнес-правила и ручные ограничения. Дальше идут collaborative методы: item-to-item, ALS/BPR, matrix factorization, sequence models, которые используют историю взаимодействий. Content-based методы используют текст, категорию, изображение, цену, гео и другие признаки объекта или пользователя.
В production чаще работает гибрид: несколько retrieval-источников достают кандидатов, затем ranker смешивает поведенческие, контентные и контекстные сигналы. Для cold start item помогает контент: текст, категория, image/text embeddings, seller quality. Для cold start user помогают onboarding, гео, устройство, первые клики, session context и популярные fallback-выдачи.
Exploration тоже важен: если новым объектам не давать показов, система не соберет поведенческий сигнал. Поэтому добавляют controlled exploration, diversity и отдельные правила для новых айтемов.
Теория
Cold start обычно решается не одной моделью, а смесью content signals, fallback и exploration.
Типичные ошибки
- Полагаться только на collaborative filtering для новых объектов.
- Не отделять user cold start от item cold start.
- Забывать, что exploration влияет на будущие обучающие данные.