Назад к подготовке

ВопросСредняяmlsd-recsysML System Design из материалов интервью · Wildberries

Какие стандартные проблемы есть в RecSys

Какие типовые проблемы рекомендательных систем ты бы назвал и как их можно измерять или снижать?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Базовый набор: перекос в популярные товары, низкое разнообразие и новизна, cold start, feedback loops, position bias, оптимизация в кликбейт, разреженные данные, свежесть каталога, offline-online gap и latency.

Полный разбор

Сильный ответ лучше группировать по классам проблем. Качество рекомендаций: popularity bias, когда система крутит только популярные товары; низкая diversity внутри выдачи; низкая novelty для пользователя; плохое покрытие long-tail; clickbait-оптимизация, когда клики есть, а ценности дальше нет. Данные и обучение: cold start для новых пользователей и товаров, data sparsity, feedback loops, position/exposure bias, leakage, устаревание каталога и сезонность. Модель учится на том, что сама раньше показывала, поэтому offline-лог может быть смещен. Production и продукт: latency, стоимость candidate generation/reranking, свежесть признаков, правила безопасности, бизнес-guardrails и offline-online gap. Мерить можно diversity/coverage/novelty, распределение популярности показанных товаров, calibration, business metrics и A/B guardrails.

Теория

RecSys редко оптимизируется одной метрикой. Обычно есть основная ranking metric и набор guardrails, которые защищают продукт от локального максимума по кликам.

Типичные ошибки

Назвать только cold start и не раскрыть остальные проблемы.
Смешать novelty и diversity без объяснения.
Не сказать, как проблему измерить.

Как отвечать на собеседовании

Дай 5-7 проблем и сразу привяжи их к метрикам.
Покажи, что клики не равны качеству: нужны downstream и business guardrails.