К тренажеру
ВопросMediumdataРеальный собес

Датасет и hard negatives для visual difference

Как собрать датасет для модели, которая отличает один и тот же автомобиль от визуально похожего другого?

Короткий ответ

Нужны positives, easy negatives, hard negatives и явная разметка типов отличий; синтетика полезна как bootstrap, но реальные пары критичны.

Полный разбор

Стартовать можно с истории объявлений, жалоб и эвристик по VIN/карточке, но пары нужно валидировать ассессорами. Hard negatives должны быть визуально близкими: та же модель, поколение и цвет, но другой автомобиль. Разметку лучше делать multi-label: цвет, колеса, кузов, салон, другие детали.

Важно контролировать leakage между train/test по объявлениям и источникам, иначе метрики будут завышены.

Теория

Metric learning учится именно на структуре positives/negatives; слишком легкие negatives не учат тонким отличиям.

Типичные ошибки

  • Считать синтетику полноценной заменой real-world data.
  • Делать слишком легкие negatives.
  • Не размечать тип отличия.

Как отвечать на собеседовании

  • Объясни, как будешь улучшать датасет итеративно после ошибок модели.