Система предупреждений о phishing для ISP
Интернет-провайдер хочет предупреждать пользователей о phishing-страницах. Как спроектировать ML-систему детекта и показа предупреждения?
Короткий ответ
Сделать multi-signal risk scoring URL/domain/page content, быстрый lookup на critical path, async enrichment и policy для warning/blocking thresholds.
Полный разбор
Пайплайн включает URL/domain reputation, lexical features, DNS/TLS/hosting signals, redirects, page screenshot/content, brand impersonation, user reports and threat feeds. На online path у ISP должен быть быстрый cache/lookup score, а тяжелый crawling/enrichment идет асинхронно.
Решение не только модельное: нужны thresholds для warn/block/allow, feedback от пользователей, appeals, allowlist, monitoring false positives and incident response.
Теория
Phishing detection - adversarial ML system с быстрым online path и постоянно меняющимся distribution.
Типичные ошибки
- Считать задачу обычной бинарной классификацией без latency path.
- Не обсуждать false positives.
- Игнорировать adversarial adaptation.
Как отвечать на собеседовании
- Раздели detection score и product policy: warn, block, allow.