Назад к подготовке

ВопросСложнаяretrieval-and-rankingML System Design на техническом собеседовании · Corsearch / Navi

Фильтрация web search результатов для brand protection

Спроектируйте систему, которая ищет в интернете потенциальные нарушения бренда и фильтрует массу нерелевантных результатов для 1000+ клиентов.

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Комбинировать keyword/image retrieval, дедупликацию, мультимодальный классификатор релевантности, brand/category/logo signals и human review queue.

Полный разбор

Pipeline начинается со сбора кандидатов из web, marketplaces и social, нормализации и дедупликации. Затем модели оценивают бренд, категорию, наличие логотипа, похожесть продукта, текстовые признаки и риск нарушения. Результат ранжируется под модераторскую очередь и takedown workflow. Ключевые метрики: precision@review, recall по known infringements, moderator throughput, appeal rate и стоимость обработки.

Теория

Brand protection - это не один classifier, а retrieval + narrowing + decision workflow с ручной проверкой.

Типичные ошибки

Путать retrieval и финальную классификацию нарушения.
Не бороться с дубликатами.
Не адаптировать модель под бренд.

Как отвечать на собеседовании

Сначала candidate generation, затем narrowing/ranking, потом enforcement.