Как выбирать инструменты для RecSys
Фреймворк выбирают не по “самый модный”, а по стадии проекта. Для baseline нужны простота и воспроизводимость. Для исследований — широкий набор моделей и честные протоколы. Для production — serving, feature pipelines, ANN, мониторинг и latency.
Baseline и классика
- implicit: быстрые ALS/BPR/nearest-neighbor модели для implicit feedback.
- LightFM: гибридный matrix factorization с user/item side features.
- Surprise: удобен для учебных rating-prediction задач, но меньше подходит для production implicit top-N.
Research и benchmarking
- RecBole: много моделей, датасетов и evaluation protocols в едином формате.
- Microsoft Recommenders: набор notebooks и best practices для разных сценариев.
- Elliot/RecPack/Polara: полезны для экспериментов, но надо проверять активность и совместимость.
Neural и production stack
- TensorFlow Recommenders: хороший путь для retrieval/ranking моделей в TF ecosystem.
- NVIDIA Merlin: end-to-end стек для GPU-ускоренных deep recommender systems.
- Faiss/ScaNN/Milvus/Qdrant/Redis Vector: ANN retrieval и vector search.
- Feast/Tecton/custom feature store: online/offline consistency для фичей.
- Triton/KServe/Seldon/custom services: serving ranker и embeddings models.
Загрузка интерактивного виджета...
Не начинай с тяжелого стека
Для учебного проекта или MVP лучше сделать сильный baseline: popularity, item-to-item, implicit ALS/LightFM, нормальная offline validation. Deep stack без хороших данных и evaluation pipeline часто дает иллюзию прогресса.
Минимальный практический стек
- pandas/polars + SQL для подготовки событий.
- implicit или LightFM для baseline.
- RecBole для сравнения с современными моделями.
- Faiss/ScaNN для ANN retrieval.
- FastAPI + batch precompute для первого serving.
- A/B или хотя бы replay evaluation с time split для проверки.
Материалы
Дополнительно
implicit — Fast Collaborative Filtering for Implicit Feedback
Практичная библиотека для первых сильных baselines.
RecBole — Unified recommendation library
Research framework с большим набором моделей и датасетов.
NVIDIA Merlin — Recommender Systems Guide
Карта production/deep learning инструментов для RecSys.