Оффлайн vs Онлайн оценка — Рекомендательные системы

Почему оффлайн качество не равно продуктовой пользе

Оффлайн оценка отвечает на вопрос: насколько модель хорошо восстанавливает исторические взаимодействия. Онлайн оценка отвечает на другой вопрос: стало ли пользователям и бизнесу лучше после выката. В RecSys между этими вопросами часто большой разрыв.

История уже смещена прошлой системой: пользователь кликал только то, что ему показали. Поэтому test set не является честной выборкой всех возможных рекомендаций. Модель может поднять NDCG@10, но в A/B тесте ухудшить CTR, diversity или долгосрочный retention.

Загрузка интерактивного виджета...

Что проверять оффлайн

Ranking quality: Recall@K, NDCG@K, MAP, MRR. Это быстрый фильтр плохих идей.
Coverage и catalog health: не схлопнулась ли модель в самые популярные айтемы.
Diversity и novelty: не стала ли лента однообразной.
Segment metrics: новые пользователи, heavy users, редкие категории, регионы, устройства.
Latency и cost proxy: не выигрываем ли метрику моделью, которую невозможно обслуживать.

Главная ловушка

Не делай случайный train/test split по строкам взаимодействий, если задача зависит от времени. Так модель может учиться на будущем. Для RecSys почти всегда нужен time-based split: обучаемся на прошлом, валидируемся на более поздних событиях.

Что проверять онлайн

Primary metric: CTR, watch time, conversion, GMV, bookings, retention — зависит от продукта.
Guardrails: latency, crash rate, жалобы, отмены, hide/dislike, unsubscribe, revenue cannibalization.
Long-term metrics: возвращаемость, усталость от контента, здоровье маркетплейса, creator/seller fairness.
Ramp strategy: сначала shadow/logging, потом 1%, 5%, 25%, 50%, 100% с мониторингом.

A/B, interleaving и counterfactual evaluation

A/B тест — золотой стандарт, но он дорогой и медленный. Interleaving помогает быстрее сравнивать два ранжировщика в поисковых и рекомендательных сценариях: элементы от двух систем смешиваются в один список, а потом клики атрибутируются победителю.

Counterfactual evaluation пытается оценить новую политику по логам старой через propensity scores и IPS/SNIPS. Это полезно, когда онлайн эксперимент дорогой или рискованный, но требует логировать вероятности показа и очень аккуратно работать с дисперсией.

Как отвечать на собесе

Сначала объясни, что оффлайн метрики нужны для быстрого отбора кандидатов, но не являются финальным критерием.
Потом назови смещения: exposure bias, position bias, selection bias, popularity bias.
Дальше предложи pipeline: time split -> offline metrics + guardrails -> shadow -> A/B/interleaving -> ramp.
Отдельно проговори сегменты: средняя метрика может расти, а новые пользователи или long-tail айтемы деградировать.

Материалы

Дополнительно

Netflix TechBlog — Interleaving in Online Experiments

Практический материал о быстрых онлайн-сравнениях ранжировщиков.

Evidently AI — Evaluating Recommender Systems

Хорошая карта оффлайн метрик и ограничений оценки RecSys.

Offline Evaluation of Recommender Systems and Recommendation Quality

Почему offline evaluation в рекомендациях требует осторожности.