Фильтрация web search результатов для brand protection
Спроектируйте систему, которая ищет в интернете потенциальные нарушения бренда и фильтрует массу нерелевантных результатов для 1000+ клиентов.
Короткий ответ
Комбинировать keyword/image retrieval, дедупликацию, мультимодальный классификатор релевантности, brand/category/logo signals и human review queue.
Полный разбор
Pipeline начинается со сбора кандидатов из web, marketplaces и social, нормализации и дедупликации. Затем модели оценивают бренд, категорию, наличие логотипа, похожесть продукта, текстовые признаки и риск нарушения. Результат ранжируется под модераторскую очередь и takedown workflow.
Ключевые метрики: precision@review, recall по known infringements, moderator throughput, appeal rate и стоимость обработки.
Теория
Brand protection - это не один classifier, а retrieval + narrowing + decision workflow с ручной проверкой.
Типичные ошибки
- Путать retrieval и финальную классификацию нарушения.
- Не бороться с дубликатами.
- Не адаптировать модель под бренд.
Как отвечать на собеседовании
- Сначала candidate generation, затем narrowing/ranking, потом enforcement.