Offline precision для новой карусели

Если новой карусели еще не было в продукте, как оценить offline precision или релевантность ее рекомендаций?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Прямой precision невозможен без логов этой поверхности. Используются похожие surfaces, historical impressions, human labels, counterfactual assumptions и затем осторожный online test.

Полный разбор

У новой карусели нет собственных impression logs, поэтому нельзя честно посчитать precision так, будто пользователи уже видели эти рекомендации. Доступны только proxy источники: существующие выдачи, похожие блоки, поисковые сессии, контакты/покупки, seller/listing labels или ручная разметка. Offline evaluation можно собрать как candidate relevance benchmark: для user/session берутся historical positive listings, negatives из shown-but-not-contacted, category constraints и time-based split. Но результат зависит от counterfactual assumptions: пользователь мог бы иначе реагировать на новую surface, позицию и UI. Поэтому offline precision является screening metric. Для продукта нужен staged rollout: shadow logging, small A/B, guardrails по жалобам/latency/seller exposure и сравнение с простым baseline arm.

Новая surface создает missing counterfactual data problem: отсутствие показов означает отсутствие unbiased labels именно для этой позиции и UI.