Какие стандартные проблемы есть в RecSys
Какие типовые проблемы рекомендательных систем ты бы назвал и как их можно измерять или снижать?
Короткий ответ
Базовый набор: popularity bias, lack of diversity, low novelty, cold start, feedback loops, position bias, clickbait optimization, data sparsity, catalog freshness, offline-online gap и latency constraints.
Полный разбор
Сильный ответ лучше группировать по классам проблем.
Качество рекомендаций: popularity bias, когда система крутит только популярные товары; низкая diversity внутри выдачи; низкая novelty для пользователя; плохое покрытие long-tail; clickbait-оптимизация, когда клики есть, а ценности дальше нет.
Данные и обучение: cold start для новых пользователей и товаров, data sparsity, feedback loops, position/exposure bias, leakage, устаревание каталога и сезонность. Модель учится на том, что сама раньше показывала, поэтому offline-лог может быть смещен.
Production и продукт: latency, стоимость candidate generation/reranking, свежесть признаков, правила безопасности, бизнес-guardrails и offline-online gap. Мерить можно diversity/coverage/novelty, распределение популярности показанных товаров, calibration, business metrics и A/B guardrails.
Теория
RecSys редко оптимизируется одной метрикой. Обычно есть основная ranking metric и набор guardrails, которые защищают продукт от локального максимума по кликам.
Типичные ошибки
- Назвать только cold start и не раскрыть остальные проблемы.
- Смешать novelty и diversity без объяснения.
- Не сказать, как проблему измерить.
Как отвечать на собеседовании
- Дай 5-7 проблем и сразу привяжи их к метрикам.
- Покажи, что клики не равны качеству: нужны downstream и business guardrails.