Обязательно

Оффлайн vs Онлайн оценка

Понимаем разницу между оффлайн метриками и реальным A/B тестом

Время изучения: 18 мин

Почему оффлайн качество не равно продуктовой пользе

Оффлайн оценка отвечает на вопрос: насколько модель хорошо восстанавливает исторические взаимодействия. Онлайн оценка отвечает на другой вопрос: стало ли пользователям и бизнесу лучше после выката. В RecSys между этими вопросами часто большой разрыв.

История уже смещена прошлой системой: пользователь кликал только то, что ему показали. Поэтому test set не является честной выборкой всех возможных рекомендаций. Модель может поднять NDCG@10, но в A/B тесте ухудшить CTR, diversity или долгосрочный retention.

Загрузка интерактивного виджета...

Что проверять оффлайн

  • Ranking quality: Recall@K, NDCG@K, MAP, MRR. Это быстрый фильтр плохих идей.
  • Coverage и catalog health: не схлопнулась ли модель в самые популярные айтемы.
  • Diversity и novelty: не стала ли лента однообразной.
  • Segment metrics: новые пользователи, heavy users, редкие категории, регионы, устройства.
  • Latency и cost proxy: не выигрываем ли метрику моделью, которую невозможно обслуживать.

Главная ловушка

Не делай случайный train/test split по строкам взаимодействий, если задача зависит от времени. Так модель может учиться на будущем. Для RecSys почти всегда нужен time-based split: обучаемся на прошлом, валидируемся на более поздних событиях.

Что проверять онлайн

  • Primary metric: CTR, watch time, conversion, GMV, bookings, retention — зависит от продукта.
  • Guardrails: latency, crash rate, жалобы, отмены, hide/dislike, unsubscribe, revenue cannibalization.
  • Long-term metrics: возвращаемость, усталость от контента, здоровье маркетплейса, creator/seller fairness.
  • Ramp strategy: сначала shadow/logging, потом 1%, 5%, 25%, 50%, 100% с мониторингом.

A/B, interleaving и counterfactual evaluation

A/B тест — золотой стандарт, но он дорогой и медленный. Interleaving помогает быстрее сравнивать два ранжировщика в поисковых и рекомендательных сценариях: элементы от двух систем смешиваются в один список, а потом клики атрибутируются победителю.

Counterfactual evaluation пытается оценить новую политику по логам старой через propensity scores и IPS/SNIPS. Это полезно, когда онлайн эксперимент дорогой или рискованный, но требует логировать вероятности показа и очень аккуратно работать с дисперсией.

Как отвечать на собесе

  • Сначала объясни, что оффлайн метрики нужны для быстрого отбора кандидатов, но не являются финальным критерием.
  • Потом назови смещения: exposure bias, position bias, selection bias, popularity bias.
  • Дальше предложи pipeline: time split -> offline metrics + guardrails -> shadow -> A/B/interleaving -> ramp.
  • Отдельно проговори сегменты: средняя метрика может расти, а новые пользователи или long-tail айтемы деградировать.