Датасет и разметка food categories
Как собрать датасет и организовать разметку для матчинга фото ресторана с категориями еды?
Короткий ответ
Нужен gold set с понятными инструкциями, consensus нескольких разметчиков, авторазметка/active learning для ускорения и отдельная проверка hard classes.
Полный разбор
Сначала формируем taxonomy категорий и инструкции с положительными/отрицательными примерами. Для gold set берем разнообразные организации, регионы, категории, качество фото и edge cases. Разметка должна быть простой: например, бинарный вопрос "есть ли еда категории X на фото" или выбор из ограниченного набора кандидатов, а не открытая формулировка.
Для качества нужны несколько разметчиков, consensus, adjudication спорных примеров и контрольные задания. Чтобы снизить стоимость, можно использовать CLIP/LLM как prelabeler, но человеческая валидация остается source of truth.
Active learning: отправлять на разметку примеры с низкой уверенностью, конфликты моделей и классы с плохими метриками.
Теория
Качество CV-модели часто ограничено не архитектурой, а taxonomy, инструкцией и распределением hard negatives.
Типичные ошибки
- Не описать инструкцию для разметчиков.
- Считать авторазметку готовым ground truth.
- Не выделить validation/test по организациям или регионам.
Как отвечать на собеседовании
- Скажи "gold set" и "consensus".
- Добавь active learning для снижения стоимости.