Назад к подготовке

ВопросСредняяcv-system-designML System Design на техническом собеседовании · 2GIS

Датасет и разметка food categories

Как собрать датасет и организовать разметку для матчинга фото ресторана с категориями еды?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Нужен gold set с понятными инструкциями, consensus нескольких разметчиков, авторазметка/active learning для ускорения и отдельная проверка hard classes.

Полный разбор

Сначала формируем taxonomy категорий и инструкции с положительными/отрицательными примерами. Для gold set берем разнообразные организации, регионы, категории, качество фото и edge cases. Разметка должна быть простой: например, бинарный вопрос "есть ли еда категории X на фото" или выбор из ограниченного набора кандидатов, а не открытая формулировка. Для качества нужны несколько разметчиков, consensus, adjudication спорных примеров и контрольные задания. Чтобы снизить стоимость, можно использовать CLIP/LLM как prelabeler, но человеческая валидация остается source of truth. Active learning: отправлять на разметку примеры с низкой уверенностью, конфликты моделей и классы с плохими метриками.

Теория

Качество CV-модели часто ограничено не архитектурой, а taxonomy, инструкцией и распределением hard negatives.

Типичные ошибки

Не описать инструкцию для разметчиков.
Считать авторазметку готовым ground truth.
Не выделить validation/test по организациям или регионам.

Как отвечать на собеседовании

Скажи "gold set" и "consensus".
Добавь active learning для снижения стоимости.