Назад к подготовке

ВопросСложнаяself-supervised-learningТехническое собеседование · Wisebits / xHamster

Self-distillation и DINO

Что такое self-distillation и зачем модель учить на собственных предсказаниях? Как устроен DINO-style teacher-student подход?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Self-distillation использует teacher-версию той же модели, прошлый checkpoint или EMA-копию как источник мягких target. В DINO student и teacher видят разные аугментации одного изображения: teacher обновляется через EMA от student, а student учится совпадать с распределением teacher.

Полный разбор

В distillation student учится не только на hard labels, а на более мягких targets от teacher. В self-distillation teacher может быть той же архитектурой, previous checkpoint, averaged copy или EMA-версией student. Soft targets помогают regularization и могут сохранить полезную структуру, которую hard labels теряют. DINO - self-supervised vision setup. Берутся разные augmented views одного изображения; student и teacher получают разные views, а student учится совпадать с output distribution teacher. Teacher не обучается прямым gradient descent: его веса обновляются как exponential moving average от student weights. Это заставляет representation быть устойчивым к аугментациям без явных labels. Важные interview points: augmented views, teacher-student targets, stop-gradient на teacher и EMA teacher update.

Теория

Self-distillation использует model-derived target как smoothing и representation-learning signal.

Типичные ошибки

Говорить, что teacher и student обновляются одним и тем же gradient.
Забывать augmentations в DINO.
Объяснять только classic supervised distillation и пропустить self-supervised usage.

Как отвечать на собеседовании

Назовите stop-gradient и EMA teacher.
Объясните, почему soft targets regularize noisy training.