Self-supervised pretraining на unlabeled sequences
Есть много неразмеченных driving/log sequences и мало labels для редких событий. Какие self-supervised подходы можно использовать до supervised fine-tuning?
Короткий ответ
Подходы: contrastive learning для близких/дальних temporal windows, masked sequence modeling, future embedding prediction и next-event proxy tasks. Потом fine-tune на rare-event labels.
Полный разбор
Если labels мало, unlabeled sequences можно использовать для representation learning. Contrastive вариант: positive pairs - соседние/разные augmentations одного temporal segment, negatives - другие сцены или hard negatives из похожих условий. Цель - чтобы embedding сохранял устойчивую семантику сцены.
Masked modeling: скрываем часть frame/segment embeddings и предсказываем их по контексту. Future prediction: по прошлым embedding-ам предсказываем следующий embedding или coarse future state. Можно также делать proxy tasks: ordering, temporal distance, object-motion consistency, reconstruction через autoencoder.
После pretraining модель fine-tune-ится на supervised rare-event labels. Важно проверить, что pretraining objective не учит только shortcut-ы вроде времени суток или маршрута, если это не нужно задаче.
Теория
Self-supervised learning полезен, когда много неразмеченной последовательной информации и мало дорогих labels. Выбор objective должен помогать downstream event detection.
Типичные ошибки
- Предлагать generic pretraining без связи с downstream task.
- Не обсуждать negatives и augmentations.
- Не проверять shortcut features.
Как отвечать на собеседовании
- Назови contrastive, masked modeling и future prediction.
- Объясни, как потом fine-tune-ить на rare-event labels.