Overfitting, regularization и dropout

Как бороться с переобучением модели? Объясните L1/L2, dropout 0.5 и что происходит с dropout на inference.

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Используют validation, early stopping, data augmentation, L1/L2, dropout, smaller model и ensembling. Dropout зануляет активации на train, а на inference обычно отключается.

Полный разбор

Переобучение контролируют через регуляризацию и корректную валидацию: holdout/CV, early stopping, уменьшение capacity, data augmentation, weight decay/L2, L1 для sparsity, dropout и иногда ensembling. Dropout с p=0.5 означает, что на train каждая соответствующая активация зануляется с вероятностью 0.5. Модель не может полагаться на один фиксированный путь и учится более устойчивым представлениям. В современных фреймворках обычно используется inverted dropout: на train оставшиеся активации масштабируются на 1 / (1 - p), а на inference dropout отключается без дополнительного scaling.