Лейблы и feedback loop в phishing detection
Откуда брать лейблы для phishing detection и как не попасть в feedback loop после запуска предупреждений?
Короткий ответ
Комбинировать threat feeds, user reports, analyst labels, takedown/brand data and sandbox verdicts; логировать exposure warnings, чтобы не смешать behavior change с истинной безопасностью.
Полный разбор
Лейблы приходят из внешних feeds, ручной аналитики, жалоб пользователей, brand protection, sandbox/crawler verdicts, allowlists and confirmed incidents. Они шумные, задержанные и biased toward known campaigns. После запуска предупреждений пользователи меньше переходят на опасные страницы, поэтому простое снижение инцидентов может быть эффектом показа, а не лучшей модели.
Нужно хранить policy exposure, model score, user action after warning, delayed confirmations and sampled manual audit.
Теория
Security labels часто delayed/noisy, а сама модель меняет поведение пользователей и распределение данных.
Типичные ошибки
- Использовать только user reports.
- Не отделять модельный score от policy action.
- Не учитывать исчезающие positives после блокировки.
Как отвечать на собеседовании
- Объясни, почему feedback loop здесь сильнее, чем в обычной классификации.