Лейблы для контрольных вопросов
Какие лейблы собрать для обучения выбора контрольного вопроса и как бороться с тем, что мы видим ответы только на показанные вопросы?
Короткий ответ
Нужны answer success, fraud outcomes and friction labels, но из-за logging policy требуется exploration, propensity logging или conservative offline evaluation.
Полный разбор
Лейблы: правильно/неправильно ответил, время ответа, transfer/escalation, повторный звонок, confirmed fraud, false reject, complaint, manual review outcome. Проблема: историческая политика уже выбирала вопросы, поэтому unknown counterfactual для непоказанных вопросов.
Чтобы снизить bias, нужно логировать propensity/position, делать controlled exploration на безопасных сегментах, использовать IPS/DR evaluation или начинать с rules+human review. Для fraud labels важны задержки и post-fact confirmation.
Теория
В security-ranking данные одновременно смещены политикой показа и задержаны по fraud outcomes.
Типичные ошибки
- Учить модель только на answered correctly.
- Игнорировать selection bias.
- Считать отсутствие fraud мгновенным negative label.
Как отвечать на собеседовании
- Обязательно упомяни propensity logging и delayed labels.