Offline precision для новой карусели
Если новой карусели еще не было в продукте, как оценить offline precision или релевантность ее рекомендаций?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Прямой precision невозможен без логов этой поверхности. Используются похожие surfaces, historical impressions, human labels, counterfactual assumptions и затем осторожный online test.
Полный разбор
У новой карусели нет собственных impression logs, поэтому нельзя честно посчитать precision так, будто пользователи уже видели эти рекомендации. Доступны только proxy источники: существующие выдачи, похожие блоки, поисковые сессии, контакты/покупки, seller/listing labels или ручная разметка.
Offline evaluation можно собрать как candidate relevance benchmark: для user/session берутся historical positive listings, negatives из shown-but-not-contacted, category constraints и time-based split. Но результат зависит от counterfactual assumptions: пользователь мог бы иначе реагировать на новую surface, позицию и UI.
Поэтому offline precision является screening metric. Для продукта нужен staged rollout: shadow logging, small A/B, guardrails по жалобам/latency/seller exposure и сравнение с простым baseline arm.
Теория
Новая surface создает missing counterfactual data problem: отсутствие показов означает отсутствие unbiased labels именно для этой позиции и UI.