Назад к подготовке

ВопросСредняяdataML System Design на техническом собеседовании · Corsearch / Navi

Датасет и hard negatives для visual difference

Как собрать датасет для модели, которая отличает один и тот же автомобиль от визуально похожего другого?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Нужны positives, easy negatives, hard negatives и явная разметка типов отличий; синтетика полезна как bootstrap, но реальные пары критичны.

Полный разбор

Стартовать можно с истории объявлений, жалоб и эвристик по VIN/карточке, но пары нужно валидировать ассессорами. Hard negatives должны быть визуально близкими: та же модель, поколение и цвет, но другой автомобиль. Разметку лучше делать multi-label: цвет, колеса, кузов, салон, другие детали. Важно контролировать leakage между train/test по объявлениям и источникам, иначе метрики будут завышены.

Теория

Metric learning учится именно на структуре positives/negatives; слишком легкие negatives не учат тонким отличиям.

Типичные ошибки

Считать синтетику полноценной заменой real-world data.
Делать слишком легкие negatives.
Не размечать тип отличия.

Как отвечать на собеседовании

Объясни, как будешь улучшать датасет итеративно после ошибок модели.