К тренажеру
ВопросHardretrieval-and-rankingРеальный собес

Фильтрация web search результатов для brand protection

Спроектируйте систему, которая ищет в интернете потенциальные нарушения бренда и фильтрует массу нерелевантных результатов для 1000+ клиентов.

Короткий ответ

Комбинировать keyword/image retrieval, дедупликацию, мультимодальный классификатор релевантности, brand/category/logo signals и human review queue.

Полный разбор

Pipeline начинается со сбора кандидатов из web, marketplaces и social, нормализации и дедупликации. Затем модели оценивают бренд, категорию, наличие логотипа, похожесть продукта, текстовые признаки и риск нарушения. Результат ранжируется под модераторскую очередь и takedown workflow.

Ключевые метрики: precision@review, recall по known infringements, moderator throughput, appeal rate и стоимость обработки.

Теория

Brand protection - это не один classifier, а retrieval + narrowing + decision workflow с ручной проверкой.

Типичные ошибки

  • Путать retrieval и финальную классификацию нарушения.
  • Не бороться с дубликатами.
  • Не адаптировать модель под бренд.

Как отвечать на собеседовании

  • Сначала candidate generation, затем narrowing/ranking, потом enforcement.