К тренажеру
ВопросMediumcomputer-visionРеальный собес

Logo detection при ограниченной разметке

Как построить logo detection для множества брендов и вариантов логотипов, если ручная bbox-разметка дорогая?

Короткий ответ

Собирать реальные изображения, использовать VLM/LLM для bbox-аннотаций, валидировать на gold set и обучать detector/grounding модель по брендам и вариантам логотипа.

Полный разбор

Для логотипов важны реальные контексты, масштабы, искажения и co-occurrence с товарами, поэтому синтетика не всегда дает нужное качество. Авторазметка через VLM ускоряет покрытие, но требует выборочного аудита.

Для многих брендов стоит хранить taxonomy logo variants и измерять per-brand/per-variant recall, а не только aggregate mAP.

Теория

Synthetic overlays часто имеют domain gap: логотип в реальном товаре выглядит иначе, чем чистая картинка на случайном фоне.

Типичные ошибки

  • Считать synthetic overlays достаточными.
  • Не разделять brand classification и bbox localization.
  • Мерить только aggregate mAP.

Как отвечать на собеседовании

  • Обсуди long-tail бренды и active learning.