Назад к подготовке

Как бороться с selection bias и неоднозначными negatives

Исторические данные есть только по поставщикам, которых уже показывали или приглашали. Как понять и уменьшить selection bias, и как обращаться с losing bids?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Selection bias видно по coverage и повторному показу одних поставщиков; снижать его можно exploration slots, counterfactual logging, stratified sampling и осторожными labels для losing bids.

Полный разбор

Bias возникает потому, что модель обучается на поставщиках, которых старая система уже выбрала для показа или приглашения. Поставщики вне exposure почти не получают labels, и новая модель начинает усиливать старые предпочтения.

Диагностика: coverage поставщиков, category/geography coverage, доля повторно показанных поставщиков, long-tail exposure, add/delete rate по компаниям-заказчикам, качество на exploration buckets. Нужно логировать propensities или хотя бы policy/version/context, чтобы понимать, почему поставщик был показан.

Mitigation: controlled exploration slots, diversity constraints, randomization внутри безопасных buckets, active learning для редких категорий, debiased/off-policy evaluation там, где хватает данных. Labels должны быть аккуратными: winner - сильный positive; bid responder, который проиграл, не hard negative; no-bid и ignore имеют разный смысл; удаление заказчиком может быть сильнее negative, но тоже зависит от контекста.

Теория

Selection bias в recommender systems связан с logged bandit feedback: мы наблюдаем outcome только для выбранных системой действий. Без exploration и exposure logging offline evaluation переоценивает текущую policy.

Типичные ошибки

  • Всех поставщиков без winner label пометить нулями.
  • Не измерять coverage и long-tail exposure.
  • Предложить exploration без guardrails для B2B customers.

Как отвечать на собеседовании

  • Скажи: losing bid не равен плохой поставщик.
  • Назови coverage, exploration slots и exposure logging вместе.