A/B тест безопасной верификации
Как онлайн проверять новую модель выбора контрольных вопросов, если ошибка может пропустить мошенника или заблокировать клиента?
Короткий ответ
Выкатывать staged rollout с жесткими guardrails, shadow mode, manual review для high-risk и monitoring delayed fraud outcomes.
Полный разбор
До A/B нужен shadow scoring: модель предлагает вопрос, но не влияет на оператора. Затем small traffic на low/medium-risk сегментах. Primary метрики: fraud prevention, false reject/false accept, call completion, AHT, escalation, complaints. Guardrails: spike fraud, complaints, regulatory incidents, manual review overload.
High-risk операции лучше оставлять под stricter policy или human review до доказанного качества. Из-за delayed fraud labels нужны interim proxy metrics и последующий backtest.
Теория
В risk systems нельзя раскатывать ML как обычный ranking: нужен staged rollout и kill switch.
Типичные ошибки
- Пустить 50/50 A/B на все операции.
- Не учитывать delayed fraud confirmation.
- Не иметь kill switch.
Как отвечать на собеседовании
- Скажи, какие сегменты исключишь из первого эксперимента.