Обязательно

Фреймворки

Обзор инструментов — от LightFM для старта до RecBole для экспериментов

Время изучения: 18 мин

Как выбирать инструменты для RecSys

Фреймворк выбирают не по “самый модный”, а по стадии проекта. Для baseline нужны простота и воспроизводимость. Для исследований — широкий набор моделей и честные протоколы. Для production — serving, feature pipelines, ANN, мониторинг и latency.

Baseline и классика

  • implicit: быстрые ALS/BPR/nearest-neighbor модели для implicit feedback.
  • LightFM: гибридный matrix factorization с user/item side features.
  • Surprise: удобен для учебных rating-prediction задач, но меньше подходит для production implicit top-N.

Research и benchmarking

  • RecBole: много моделей, датасетов и evaluation protocols в едином формате.
  • Microsoft Recommenders: набор notebooks и best practices для разных сценариев.
  • Elliot/RecPack/Polara: полезны для экспериментов, но надо проверять активность и совместимость.

Neural и production stack

  • TensorFlow Recommenders: хороший путь для retrieval/ranking моделей в TF ecosystem.
  • NVIDIA Merlin: end-to-end стек для GPU-ускоренных deep recommender systems.
  • Faiss/ScaNN/Milvus/Qdrant/Redis Vector: ANN retrieval и vector search.
  • Feast/Tecton/custom feature store: online/offline consistency для фичей.
  • Triton/KServe/Seldon/custom services: serving ranker и embeddings models.

Загрузка интерактивного виджета...

Не начинай с тяжелого стека

Для учебного проекта или MVP лучше сделать сильный baseline: popularity, item-to-item, implicit ALS/LightFM, нормальная offline validation. Deep stack без хороших данных и evaluation pipeline часто дает иллюзию прогресса.

Минимальный практический стек

  • pandas/polars + SQL для подготовки событий.
  • implicit или LightFM для baseline.
  • RecBole для сравнения с современными моделями.
  • Faiss/ScaNN для ANN retrieval.
  • FastAPI + batch precompute для первого serving.
  • A/B или хотя бы replay evaluation с time split для проверки.