Назад к подготовке

Семейства RecSys-алгоритмов и cold start

Какие базовые семейства алгоритмов есть в рекомендациях и что делать с cold start?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Базовые семьи: popularity/business rules, collaborative filtering, content-based модели и гибридные каскады. Cold start закрывают контентными признаками, анкетой/контекстом, популярным fallback и exploration.

Полный разбор

Самый простой слой - популярное, свежесть, бизнес-правила и ручные ограничения. Дальше идут collaborative методы: item-to-item, ALS/BPR, matrix factorization, sequence models, которые используют историю взаимодействий. Content-based методы используют текст, категорию, изображение, цену, гео и другие признаки объекта или пользователя.

В production чаще работает гибрид: несколько retrieval-источников достают кандидатов, затем ranker смешивает поведенческие, контентные и контекстные сигналы. Для cold start item помогает контент: текст, категория, image/text embeddings, seller quality. Для cold start user помогают onboarding, гео, устройство, первые клики, session context и популярные fallback-выдачи.

Exploration тоже важен: если новым объектам не давать показов, система не соберет поведенческий сигнал. Поэтому добавляют controlled exploration, diversity и отдельные правила для новых айтемов.

Теория

Cold start обычно решается не одной моделью, а смесью content signals, fallback и exploration.

Типичные ошибки

  • Полагаться только на collaborative filtering для новых объектов.
  • Не отделять user cold start от item cold start.
  • Забывать, что exploration влияет на будущие обучающие данные.