CV-пайплайн для поиска разных авто в одном объявлении
Спроектируйте систему, которая по фото и метаданным объявления определяет, что в карточке или истории автомобиля появились разные машины.
Короткий ответ
Сегментировать/кропнуть авто, определить тип фото, сравнить сопоставимые изображения embeddings-моделью, агрегировать distances и метаданные в финальный скоринг.
Полный разбор
Хорошее решение разделяет CV extraction и decision layer. Сначала фильтруются невалидные фото и определяются ракурсы, затем для сопоставимых пар считаются embeddings и cosine distances. Финальный классификатор вроде CatBoost использует агрегаты расстояний вместе с табличными полями объявления.
В production нужны пороги под precision, очередь модерации, мониторинг drift и feedback loop из решений модераторов.
Теория
Это pairwise/multi-image moderation задача: объект решения - пара объявлений или история авто, а не отдельное фото.
Типичные ошибки
- Сравнивать все фото без учета ракурса.
- Полагаться только на embedding threshold.
- Не калибровать precision под цену false positive.
Как отвечать на собеседовании
- Сначала уточни business action и цену ошибки.
- Потом переходи к данным, модели, метрикам и эксплуатации.