Почему оффлайн качество не равно продуктовой пользе
Оффлайн оценка отвечает на вопрос: насколько модель хорошо восстанавливает исторические взаимодействия. Онлайн оценка отвечает на другой вопрос: стало ли пользователям и бизнесу лучше после выката. В RecSys между этими вопросами часто большой разрыв.
История уже смещена прошлой системой: пользователь кликал только то, что ему показали. Поэтому test set не является честной выборкой всех возможных рекомендаций. Модель может поднять NDCG@10, но в A/B тесте ухудшить CTR, diversity или долгосрочный retention.
Загрузка интерактивного виджета...
Что проверять оффлайн
- Ranking quality: Recall@K, NDCG@K, MAP, MRR. Это быстрый фильтр плохих идей.
- Coverage и catalog health: не схлопнулась ли модель в самые популярные айтемы.
- Diversity и novelty: не стала ли лента однообразной.
- Segment metrics: новые пользователи, heavy users, редкие категории, регионы, устройства.
- Latency и cost proxy: не выигрываем ли метрику моделью, которую невозможно обслуживать.
Главная ловушка
Что проверять онлайн
- Primary metric: CTR, watch time, conversion, GMV, bookings, retention — зависит от продукта.
- Guardrails: latency, crash rate, жалобы, отмены, hide/dislike, unsubscribe, revenue cannibalization.
- Long-term metrics: возвращаемость, усталость от контента, здоровье маркетплейса, creator/seller fairness.
- Ramp strategy: сначала shadow/logging, потом 1%, 5%, 25%, 50%, 100% с мониторингом.
A/B, interleaving и counterfactual evaluation
A/B тест — золотой стандарт, но он дорогой и медленный. Interleaving помогает быстрее сравнивать два ранжировщика в поисковых и рекомендательных сценариях: элементы от двух систем смешиваются в один список, а потом клики атрибутируются победителю.
Counterfactual evaluation пытается оценить новую политику по логам старой через propensity scores и IPS/SNIPS. Это полезно, когда онлайн эксперимент дорогой или рискованный, но требует логировать вероятности показа и очень аккуратно работать с дисперсией.
Как отвечать на собесе
- Сначала объясни, что оффлайн метрики нужны для быстрого отбора кандидатов, но не являются финальным критерием.
- Потом назови смещения: exposure bias, position bias, selection bias, popularity bias.
- Дальше предложи pipeline: time split -> offline metrics + guardrails -> shadow -> A/B/interleaving -> ramp.
- Отдельно проговори сегменты: средняя метрика может расти, а новые пользователи или long-tail айтемы деградировать.
Материалы
Дополнительно
Практический материал о быстрых онлайн-сравнениях ранжировщиков.
Хорошая карта оффлайн метрик и ограничений оценки RecSys.
Почему offline evaluation в рекомендациях требует осторожности.