CLIP vs multilabel classifier
Для задачи матчинга фото еды и категорий что выбрать: CLIP-подход или supervised multilabel classifier?
Короткий ответ
CLIP хорош как быстрый open-vocabulary baseline и для новых категорий; classifier лучше, если taxonomy стабильна и есть качественная разметка.
Полный разбор
CLIP связывает text и image embeddings, поэтому можно быстро стартовать без полной разметки: сформулировать категории текстом и скорить фото по cosine similarity. Он удобен для новых или редких классов, но может путать близкие категории и плохо учитывать локальные бизнес-определения.
Multilabel classifier лучше контролируется при фиксированной taxonomy: можно оптимизировать конкретные классы, калибровать thresholds, смотреть confusion matrix и дообучать на hard negatives. Минус - нужны данные и переобучение при изменении taxonomy.
Практичный ответ: начать с CLIP baseline и gold set, затем дообучать голову/adapter или classifier на размеченных hard cases, если baseline проседает.
Теория
CLIP обучен контрастивно на image-text pairs и дает общее пространство, а classifier обучается под конкретную разметку.
Типичные ошибки
- Считать CLIP универсально лучшим без проверки домена.
- Не упомянуть изменения taxonomy.
- Не предложить hybrid path: CLIP baseline плюс supervised refinement.
Как отвечать на собеседовании
- Говори в терминах fixed vs open vocabulary.
- Обязательно назови confusion matrix и hard negatives.