Пройти собеседование: T-Bank ML System Design: контрольные вопросы и phishing warnings

1Кейс25 мин

Ранжирование контрольных вопросов в call center

В call center нужно выбрать контрольный вопрос для верификации клиента: достаточно безопасный, но не слишком сложный. Как построить ML-систему ранжирования вопросов?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Ранжировать вопросы по expected utility: безопасность/разделяющая сила минус friction, с учетом клиента, канала, риска операции и доступности фактов.

Подробный разбор

Сначала нужно определить цель: снизить fraud/account takeover, сохранить call completion и не ухудшить UX. Кандидаты вопросов имеют признаки сложности, uniqueness, freshness, sensitivity, вероятность ответа владельцем и вероятность угадывания мошенником. Контекст: клиент, операция, риск-сигналы, история коммуникаций, канал, регуляторные ограничения. Модель может быть LTR/scorecard: выбрать вопрос или последовательность вопросов. Нужны hard rules для запрещенных вопросов, fallback на ручную верификацию и мониторинг ошибок.

Типичные ошибки

Оптимизировать только долю правильных ответов.
Игнорировать fraud adversary.
Использовать слишком чувствительные данные без policy.

Как сказать на собеседовании

Сформулируй utility через risk reduction и customer friction.

2Вопрос14 мин

Лейблы для контрольных вопросов

Какие лейблы собрать для обучения выбора контрольного вопроса и как бороться с тем, что мы видим ответы только на показанные вопросы?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Нужны answer success, fraud outcomes and friction labels, но из-за logging policy требуется exploration, propensity logging или conservative offline evaluation.

Подробный разбор

Лейблы: правильно/неправильно ответил, время ответа, transfer/escalation, повторный звонок, confirmed fraud, false reject, complaint, manual review outcome. Проблема: историческая политика уже выбирала вопросы, поэтому unknown counterfactual для непоказанных вопросов. Чтобы снизить bias, нужно логировать propensity/position, делать controlled exploration на безопасных сегментах, использовать IPS/DR evaluation или начинать с rules+human review. Для fraud labels важны задержки и post-fact confirmation.

Типичные ошибки

Учить модель только на answered correctly.
Игнорировать selection bias.
Считать отсутствие fraud мгновенным negative label.

Как сказать на собеседовании

Обязательно упомяни propensity logging и delayed labels.

3Вопрос12 мин

A/B тест безопасной верификации

Как онлайн проверять новую модель выбора контрольных вопросов, если ошибка может пропустить мошенника или заблокировать клиента?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Выкатывать staged rollout с жесткими guardrails, shadow mode, manual review для high-risk и monitoring delayed fraud outcomes.

Подробный разбор

До A/B нужен shadow scoring: модель предлагает вопрос, но не влияет на оператора. Затем small traffic на low/medium-risk сегментах. Primary метрики: fraud prevention, false reject/false accept, call completion, AHT, escalation, complaints. Guardrails: spike fraud, complaints, regulatory incidents, manual review overload. High-risk операции лучше оставлять под stricter policy или human review до доказанного качества. Из-за delayed fraud labels нужны interim proxy metrics и последующий backtest.

Типичные ошибки

Пустить 50/50 A/B на все операции.
Не учитывать delayed fraud confirmation.
Не иметь kill switch.

Как сказать на собеседовании

Скажи, какие сегменты исключишь из первого эксперимента.

4Кейс25 мин

Система предупреждений о phishing для ISP

Интернет-провайдер хочет предупреждать пользователей о phishing-страницах. Как спроектировать ML-систему детекта и показа предупреждения?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Сделать multi-signal risk scoring URL/domain/page content, быстрый lookup на critical path, async enrichment и policy для warning/blocking thresholds.

Подробный разбор

Пайплайн включает URL/domain reputation, lexical features, DNS/TLS/hosting signals, redirects, page screenshot/content, brand impersonation, user reports and threat feeds. На online path у ISP должен быть быстрый cache/lookup score, а тяжелый crawling/enrichment идет асинхронно. Решение не только модельное: нужны thresholds для warn/block/allow, feedback от пользователей, appeals, allowlist, monitoring false positives and incident response.

Типичные ошибки

Считать задачу обычной бинарной классификацией без latency path.
Не обсуждать false positives.
Игнорировать adversarial adaptation.

Как сказать на собеседовании

Раздели detection score и product policy: warn, block, allow.

5Вопрос12 мин

Лейблы и feedback loop в phishing detection

Откуда брать лейблы для phishing detection и как не попасть в feedback loop после запуска предупреждений?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Комбинировать threat feeds, user reports, analyst labels, takedown/brand data and sandbox verdicts; логировать exposure warnings, чтобы не смешать behavior change с истинной безопасностью.

Подробный разбор

Лейблы приходят из внешних feeds, ручной аналитики, жалоб пользователей, brand protection, sandbox/crawler verdicts, allowlists and confirmed incidents. Они шумные, задержанные и biased toward known campaigns. После запуска предупреждений пользователи меньше переходят на опасные страницы, поэтому простое снижение инцидентов может быть эффектом показа, а не лучшей модели. Нужно хранить policy exposure, model score, user action after warning, delayed confirmations and sampled manual audit.

Типичные ошибки

Использовать только user reports.
Не отделять модельный score от policy action.
Не учитывать исчезающие positives после блокировки.

Как сказать на собеседовании

Объясни, почему feedback loop здесь сильнее, чем в обычной классификации.

6Вопрос10 мин

Метрики и thresholds для phishing warnings

Как выбрать thresholds для предупреждения о phishing и какие метрики мониторить в production?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Выбирать threshold по стоимости false positive/false negative, делать разные policy bands и мониторить precision, recall proxies, complaints, bypasses and incident rate.

Подробный разбор

Вместо одного порога лучше иметь зоны: allow, warn, strong warn/block, manual/async review. Threshold зависит от confidence, бренда, user segment, freshness threat intel и стоимости ошибки. Для банковского phishing false negative может быть очень дорогим, но массовые false positives ломают доверие и бизнес клиентов. Monitoring: alert volume, warning CTR/bypass, confirmed phishing, false positive appeals, latency, cache hit rate, drift по доменам/хостингам, attack campaigns.

Типичные ошибки

Ставить threshold только по F1.
Не разделять warn и block.
Не мониторить appeals/complaints.

Как сказать на собеседовании

Скажи, что для разных action bands нужны разные precision/recall tradeoffs.