Назад к подготовке

ВопросСредняяcomputer-visionML System Design на техническом собеседовании · Corsearch / Navi

Logo detection при ограниченной разметке

Как построить logo detection для множества брендов и вариантов логотипов, если ручная bbox-разметка дорогая?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Нужен гибрид: foundation/grounding модель для bootstrap-разметки, небольшой gold set с bbox, active learning по ошибкам и detector/recognizer с per-brand метриками.

Полный разбор

При дорогой bbox-разметке не стоит начинать с полной ручной разметки всех брендов. Сначала собираем реальные изображения из целевых источников: marketplace pages, web search, social, жалобы, known infringements. Для каждого бренда заводим taxonomy вариантов логотипа: старые версии, монохром, инверсия, частичные логотипы, упаковка, watermark, похожие символы. Bootstrap можно сделать через open-vocabulary detector/grounding model или VLM-assisted annotation: модель предлагает bbox и brand label, человек проверяет выборку и спорные случаи. Обязательно нужен небольшой clean gold set, размеченный вручную, чтобы измерять качество авторазметки и не обучаться на систематическом шуме. Дальше обучается detector вроде YOLO/DETR-family или двухэтапная схема detection -> crop classifier/embedding matcher. Для long-tail брендов полезны synthetic overlays, но только как augmentation: разные масштабы, perspective, blur, compression, occlusion, print на товаре. Синтетика не заменяет реальные фото из-за domain gap. Active learning выбирает изображения с низкой уверенностью, новыми доменами, похожими логотипами и ошибками модераторов. Метрики: mAP/recall по bbox, per-brand/per-variant recall, precision@review, false positives на похожих брендах и latency.

Теория

Logo detection - это связка data strategy, localization и brand recognition; без clean gold set авторазметка легко закрепляет собственные ошибки модели.

Типичные ошибки

Считать synthetic overlays достаточными для продакшн-качества.
Не разделять bbox localization, brand classification и final moderation decision.
Мерить только aggregate mAP без per-brand и long-tail анализа.

Как отвечать на собеседовании

Начни с gold set и bootstrap-разметки.
Обсуди active learning и hard negatives похожих брендов.
Раздели detector, recognizer и human review workflow.