CLIP и SigLIP-style обучение image-text моделей
Как работает CLIP-модель и как она обучается? В чем high-level отличие SigLIP-style обучения от классического CLIP?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
CLIP обучает энкодер изображений и энкодер текста на парных image-text данных: настоящие пары должны быть близко в embedding space, несовпадающие - далеко. SigLIP сохраняет эту идею, но использует sigmoid pairwise loss вместо softmax contrastive loss по batch.
Полный разбор
CLIP состоит из двух encoders: image encoder и text encoder. В batch есть пары image-caption; модель проецирует обе модальности в общее embedding space. Contrastive objective повышает similarity настоящей пары и снижает similarity для остальных пар в batch.
После такого обучения image и text можно сравнивать по cosine similarity или dot product. Поэтому CLIP полезен для zero-shot classification, retrieval и embedding-based matching.
SigLIP-style training концептуально близок к CLIP, но меняет loss. Вместо softmax contrastive normalization по всему batch используется sigmoid loss для image-text pairs, как для более независимых binary labels. На уровне интервью ключевая разница - softmax contrastive loss vs sigmoid pairwise loss.
Теория
Multimodal contrastive learning выравнивает отдельные encoders в общем similarity space, используя paired supervision.
Типичные ошибки
- Описывать CLIP как модель, которая всегда конкатенирует image и text tokens.
- Забывать negative pairs в contrastive training.
- Говорить, что SigLIP не связан с CLIP, вместо loss/training variant.
Как отвечать на собеседовании
- Начните с two encoders и shared embedding space.
- Для SigLIP четко скажите “sigmoid pairwise loss”.