К тренажеру
ВопросMediumevaluationРеальный собес

Offline evaluation перед A/B тестом рекомендателя

Как построить offline evaluation framework для новой модели рекомендаций и связать его с online A/B тестом?

Короткий ответ

Сделать time-based split на логах, считать ranking/retrieval метрики и guardrails, но финальное решение принимать через A/B.

Полный разбор

Offline framework должен фиксировать dataset construction, time split, eligible inventory, labels from future interactions, negative sampling и leakage checks. Метрики: Recall@K, NDCG@K, MAP, coverage, diversity, freshness, calibration, business proxies.

Нужно помнить про exposure bias: в логах видны только показанные items. Поэтому offline используется для фильтрации плохих идей и диагностики, а causal impact проверяется online A/B.

Теория

Offline метрики коррелируют с online не идеально из-за logging policy и selection bias.

Типичные ошибки

  • Считать precision на случайных negatives.
  • Не делать time split.
  • Ждать прямой корреляции с CTR.

Как отвечать на собеседовании

  • Объясни, какую ошибку offline поймает, а какую поймает только A/B.