Self-distillation и DINO
Что такое self-distillation и зачем модель учить на собственных предсказаниях? Как устроен DINO-style teacher-student подход?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Self-distillation использует teacher-версию той же модели, прошлый checkpoint или EMA-копию как источник мягких target. В DINO student и teacher видят разные аугментации одного изображения: teacher обновляется через EMA от student, а student учится совпадать с распределением teacher.
Полный разбор
В distillation student учится не только на hard labels, а на более мягких targets от teacher. В self-distillation teacher может быть той же архитектурой, previous checkpoint, averaged copy или EMA-версией student. Soft targets помогают regularization и могут сохранить полезную структуру, которую hard labels теряют.
DINO - self-supervised vision setup. Берутся разные augmented views одного изображения; student и teacher получают разные views, а student учится совпадать с output distribution teacher. Teacher не обучается прямым gradient descent: его веса обновляются как exponential moving average от student weights.
Это заставляет representation быть устойчивым к аугментациям без явных labels. Важные interview points: augmented views, teacher-student targets, stop-gradient на teacher и EMA teacher update.
Теория
Self-distillation использует model-derived target как smoothing и representation-learning signal.
Типичные ошибки
- Говорить, что teacher и student обновляются одним и тем же gradient.
- Забывать augmentations в DINO.
- Объяснять только classic supervised distillation и пропустить self-supervised usage.
Как отвечать на собеседовании
- Назовите stop-gradient и EMA teacher.
- Объясните, почему soft targets regularize noisy training.