Назад к подготовке

ВопросСложнаяcv-system-designML System Design на техническом собеседовании · Corsearch / Navi

CV-пайплайн для поиска разных авто в одном объявлении

Спроектируйте систему, которая по фото и метаданным объявления определяет, что в карточке или истории автомобиля появились разные машины.

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Сегментировать/кропнуть авто, определить тип фото, сравнить сопоставимые изображения embeddings-моделью, агрегировать distances и метаданные в финальный скоринг.

Полный разбор

Хорошее решение разделяет CV extraction и decision layer. Сначала фильтруются невалидные фото и определяются ракурсы, затем для сопоставимых пар считаются embeddings и cosine distances. Финальный классификатор вроде CatBoost использует агрегаты расстояний вместе с табличными полями объявления. В production нужны пороги под precision, очередь модерации, мониторинг drift и feedback loop из решений модераторов.

Теория

Это pairwise/multi-image moderation задача: объект решения - пара объявлений или история авто, а не отдельное фото.

Типичные ошибки

Сравнивать все фото без учета ракурса.
Полагаться только на embedding threshold.
Не калибровать precision под цену false positive.

Как отвечать на собеседовании

Сначала уточни business action и цену ошибки.
Потом переходи к данным, модели, метрикам и эксплуатации.