К тренажеру
ВопросMediumcv-system-designРеальный собес

Датасет и разметка food categories

Как собрать датасет и организовать разметку для матчинга фото ресторана с категориями еды?

Короткий ответ

Нужен gold set с понятными инструкциями, consensus нескольких разметчиков, авторазметка/active learning для ускорения и отдельная проверка hard classes.

Полный разбор

Сначала формируем taxonomy категорий и инструкции с положительными/отрицательными примерами. Для gold set берем разнообразные организации, регионы, категории, качество фото и edge cases. Разметка должна быть простой: например, бинарный вопрос "есть ли еда категории X на фото" или выбор из ограниченного набора кандидатов, а не открытая формулировка.

Для качества нужны несколько разметчиков, consensus, adjudication спорных примеров и контрольные задания. Чтобы снизить стоимость, можно использовать CLIP/LLM как prelabeler, но человеческая валидация остается source of truth.

Active learning: отправлять на разметку примеры с низкой уверенностью, конфликты моделей и классы с плохими метриками.

Теория

Качество CV-модели часто ограничено не архитектурой, а taxonomy, инструкцией и распределением hard negatives.

Типичные ошибки

  • Не описать инструкцию для разметчиков.
  • Считать авторазметку готовым ground truth.
  • Не выделить validation/test по организациям или регионам.

Как отвечать на собеседовании

  • Скажи "gold set" и "consensus".
  • Добавь active learning для снижения стоимости.