Ранжирование контрольных вопросов в call center
В call center нужно выбрать контрольный вопрос для верификации клиента: достаточно безопасный, но не слишком сложный. Как построить ML-систему ранжирования вопросов?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Ранжировать вопросы по expected utility: безопасность/разделяющая сила минус friction, с учетом клиента, канала, риска операции и доступности фактов.
Подробный разбор
Сначала нужно определить цель: снизить fraud/account takeover, сохранить call completion и не ухудшить UX. Кандидаты вопросов имеют признаки сложности, uniqueness, freshness, sensitivity, вероятность ответа владельцем и вероятность угадывания мошенником. Контекст: клиент, операция, риск-сигналы, история коммуникаций, канал, регуляторные ограничения.
Модель может быть LTR/scorecard: выбрать вопрос или последовательность вопросов. Нужны hard rules для запрещенных вопросов, fallback на ручную верификацию и мониторинг ошибок.
Типичные ошибки
- Оптимизировать только долю правильных ответов.
- Игнорировать fraud adversary.
- Использовать слишком чувствительные данные без policy.
Как сказать на собеседовании
- Сформулируй utility через risk reduction и customer friction.
Лейблы для контрольных вопросов
Какие лейблы собрать для обучения выбора контрольного вопроса и как бороться с тем, что мы видим ответы только на показанные вопросы?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Нужны answer success, fraud outcomes and friction labels, но из-за logging policy требуется exploration, propensity logging или conservative offline evaluation.
Подробный разбор
Лейблы: правильно/неправильно ответил, время ответа, transfer/escalation, повторный звонок, confirmed fraud, false reject, complaint, manual review outcome. Проблема: историческая политика уже выбирала вопросы, поэтому unknown counterfactual для непоказанных вопросов.
Чтобы снизить bias, нужно логировать propensity/position, делать controlled exploration на безопасных сегментах, использовать IPS/DR evaluation или начинать с rules+human review. Для fraud labels важны задержки и post-fact confirmation.
Типичные ошибки
- Учить модель только на answered correctly.
- Игнорировать selection bias.
- Считать отсутствие fraud мгновенным negative label.
Как сказать на собеседовании
- Обязательно упомяни propensity logging и delayed labels.
A/B тест безопасной верификации
Как онлайн проверять новую модель выбора контрольных вопросов, если ошибка может пропустить мошенника или заблокировать клиента?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Выкатывать staged rollout с жесткими guardrails, shadow mode, manual review для high-risk и monitoring delayed fraud outcomes.
Подробный разбор
До A/B нужен shadow scoring: модель предлагает вопрос, но не влияет на оператора. Затем small traffic на low/medium-risk сегментах. Primary метрики: fraud prevention, false reject/false accept, call completion, AHT, escalation, complaints. Guardrails: spike fraud, complaints, regulatory incidents, manual review overload.
High-risk операции лучше оставлять под stricter policy или human review до доказанного качества. Из-за delayed fraud labels нужны interim proxy metrics и последующий backtest.
Типичные ошибки
- Пустить 50/50 A/B на все операции.
- Не учитывать delayed fraud confirmation.
- Не иметь kill switch.
Как сказать на собеседовании
- Скажи, какие сегменты исключишь из первого эксперимента.
Система предупреждений о phishing для ISP
Интернет-провайдер хочет предупреждать пользователей о phishing-страницах. Как спроектировать ML-систему детекта и показа предупреждения?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Сделать multi-signal risk scoring URL/domain/page content, быстрый lookup на critical path, async enrichment и policy для warning/blocking thresholds.
Подробный разбор
Пайплайн включает URL/domain reputation, lexical features, DNS/TLS/hosting signals, redirects, page screenshot/content, brand impersonation, user reports and threat feeds. На online path у ISP должен быть быстрый cache/lookup score, а тяжелый crawling/enrichment идет асинхронно.
Решение не только модельное: нужны thresholds для warn/block/allow, feedback от пользователей, appeals, allowlist, monitoring false positives and incident response.
Типичные ошибки
- Считать задачу обычной бинарной классификацией без latency path.
- Не обсуждать false positives.
- Игнорировать adversarial adaptation.
Как сказать на собеседовании
- Раздели detection score и product policy: warn, block, allow.
Лейблы и feedback loop в phishing detection
Откуда брать лейблы для phishing detection и как не попасть в feedback loop после запуска предупреждений?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Комбинировать threat feeds, user reports, analyst labels, takedown/brand data and sandbox verdicts; логировать exposure warnings, чтобы не смешать behavior change с истинной безопасностью.
Подробный разбор
Лейблы приходят из внешних feeds, ручной аналитики, жалоб пользователей, brand protection, sandbox/crawler verdicts, allowlists and confirmed incidents. Они шумные, задержанные и biased toward known campaigns. После запуска предупреждений пользователи меньше переходят на опасные страницы, поэтому простое снижение инцидентов может быть эффектом показа, а не лучшей модели.
Нужно хранить policy exposure, model score, user action after warning, delayed confirmations and sampled manual audit.
Типичные ошибки
- Использовать только user reports.
- Не отделять модельный score от policy action.
- Не учитывать исчезающие positives после блокировки.
Как сказать на собеседовании
- Объясни, почему feedback loop здесь сильнее, чем в обычной классификации.
Метрики и thresholds для phishing warnings
Как выбрать thresholds для предупреждения о phishing и какие метрики мониторить в production?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Выбирать threshold по стоимости false positive/false negative, делать разные policy bands и мониторить precision, recall proxies, complaints, bypasses and incident rate.
Подробный разбор
Вместо одного порога лучше иметь зоны: allow, warn, strong warn/block, manual/async review. Threshold зависит от confidence, бренда, user segment, freshness threat intel и стоимости ошибки. Для банковского phishing false negative может быть очень дорогим, но массовые false positives ломают доверие и бизнес клиентов.
Monitoring: alert volume, warning CTR/bypass, confirmed phishing, false positive appeals, latency, cache hit rate, drift по доменам/хостингам, attack campaigns.
Типичные ошибки
- Ставить threshold только по F1.
- Не разделять warn и block.
- Не мониторить appeals/complaints.
Как сказать на собеседовании
- Скажи, что для разных action bands нужны разные precision/recall tradeoffs.