Датасет и hard negatives для visual difference
Как собрать датасет для модели, которая отличает один и тот же автомобиль от визуально похожего другого?
Короткий ответ
Нужны positives, easy negatives, hard negatives и явная разметка типов отличий; синтетика полезна как bootstrap, но реальные пары критичны.
Полный разбор
Стартовать можно с истории объявлений, жалоб и эвристик по VIN/карточке, но пары нужно валидировать ассессорами. Hard negatives должны быть визуально близкими: та же модель, поколение и цвет, но другой автомобиль. Разметку лучше делать multi-label: цвет, колеса, кузов, салон, другие детали.
Важно контролировать leakage между train/test по объявлениям и источникам, иначе метрики будут завышены.
Теория
Metric learning учится именно на структуре positives/negatives; слишком легкие negatives не учат тонким отличиям.
Типичные ошибки
- Считать синтетику полноценной заменой real-world data.
- Делать слишком легкие negatives.
- Не размечать тип отличия.
Как отвечать на собеседовании
- Объясни, как будешь улучшать датасет итеративно после ошибок модели.