ВопросHarddeep-learningРеальный собес

Self-supervised pretraining на unlabeled sequences

Есть много неразмеченных driving/log sequences и мало labels для редких событий. Какие self-supervised подходы можно использовать до supervised fine-tuning?

Короткий ответ

Подходы: contrastive learning для близких/дальних temporal windows, masked sequence modeling, future embedding prediction и next-event proxy tasks. Потом fine-tune на rare-event labels.

Полный разбор

Если labels мало, unlabeled sequences можно использовать для representation learning. Contrastive вариант: positive pairs - соседние/разные augmentations одного temporal segment, negatives - другие сцены или hard negatives из похожих условий. Цель - чтобы embedding сохранял устойчивую семантику сцены.

Masked modeling: скрываем часть frame/segment embeddings и предсказываем их по контексту. Future prediction: по прошлым embedding-ам предсказываем следующий embedding или coarse future state. Можно также делать proxy tasks: ordering, temporal distance, object-motion consistency, reconstruction через autoencoder.

После pretraining модель fine-tune-ится на supervised rare-event labels. Важно проверить, что pretraining objective не учит только shortcut-ы вроде времени суток или маршрута, если это не нужно задаче.

Теория

Self-supervised learning полезен, когда много неразмеченной последовательной информации и мало дорогих labels. Выбор objective должен помогать downstream event detection.

Типичные ошибки

Предлагать generic pretraining без связи с downstream task.
Не обсуждать negatives и augmentations.
Не проверять shortcut features.

Как отвечать на собеседовании

Назови contrastive, masked modeling и future prediction.
Объясни, как потом fine-tune-ить на rare-event labels.