Offline evaluation перед A/B тестом рекомендателя
Как построить offline evaluation framework для новой модели рекомендаций и связать его с online A/B тестом?
Короткий ответ
Сделать time-based split на логах, считать ranking/retrieval метрики и guardrails, но финальное решение принимать через A/B.
Полный разбор
Offline framework должен фиксировать dataset construction, time split, eligible inventory, labels from future interactions, negative sampling и leakage checks. Метрики: Recall@K, NDCG@K, MAP, coverage, diversity, freshness, calibration, business proxies.
Нужно помнить про exposure bias: в логах видны только показанные items. Поэтому offline используется для фильтрации плохих идей и диагностики, а causal impact проверяется online A/B.
Теория
Offline метрики коррелируют с online не идеально из-за logging policy и selection bias.
Типичные ошибки
- Считать precision на случайных negatives.
- Не делать time split.
- Ждать прямой корреляции с CTR.
Как отвечать на собеседовании
- Объясни, какую ошибку offline поймает, а какую поймает только A/B.