К тренажеру
ВопросHardcv-system-designРеальный собес

CV-пайплайн для поиска разных авто в одном объявлении

Спроектируйте систему, которая по фото и метаданным объявления определяет, что в карточке или истории автомобиля появились разные машины.

Короткий ответ

Сегментировать/кропнуть авто, определить тип фото, сравнить сопоставимые изображения embeddings-моделью, агрегировать distances и метаданные в финальный скоринг.

Полный разбор

Хорошее решение разделяет CV extraction и decision layer. Сначала фильтруются невалидные фото и определяются ракурсы, затем для сопоставимых пар считаются embeddings и cosine distances. Финальный классификатор вроде CatBoost использует агрегаты расстояний вместе с табличными полями объявления.

В production нужны пороги под precision, очередь модерации, мониторинг drift и feedback loop из решений модераторов.

Теория

Это pairwise/multi-image moderation задача: объект решения - пара объявлений или история авто, а не отдельное фото.

Типичные ошибки

  • Сравнивать все фото без учета ракурса.
  • Полагаться только на embedding threshold.
  • Не калибровать precision под цену false positive.

Как отвечать на собеседовании

  • Сначала уточни business action и цену ошибки.
  • Потом переходи к данным, модели, метрикам и эксплуатации.