ВопросMediumcomputer-visionРеальный собес
Logo detection при ограниченной разметке
Как построить logo detection для множества брендов и вариантов логотипов, если ручная bbox-разметка дорогая?
Короткий ответ
Собирать реальные изображения, использовать VLM/LLM для bbox-аннотаций, валидировать на gold set и обучать detector/grounding модель по брендам и вариантам логотипа.
Полный разбор
Для логотипов важны реальные контексты, масштабы, искажения и co-occurrence с товарами, поэтому синтетика не всегда дает нужное качество. Авторазметка через VLM ускоряет покрытие, но требует выборочного аудита.
Для многих брендов стоит хранить taxonomy logo variants и измерять per-brand/per-variant recall, а не только aggregate mAP.
Теория
Synthetic overlays часто имеют domain gap: логотип в реальном товаре выглядит иначе, чем чистая картинка на случайном фоне.
Типичные ошибки
- Считать synthetic overlays достаточными.
- Не разделять brand classification и bbox localization.
- Мерить только aggregate mAP.
Как отвечать на собеседовании
- Обсуди long-tail бренды и active learning.