Regularization и dropout: train vs inference

Что такое regularization, как работает dropout и почему поведение отличается на train и inference?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Regularization ограничивает переобучение; dropout на train случайно зануляет activations, а на inference использует всю сеть с корректным scale.

Полный разбор

Regularization снижает способность модели запоминать train noise: L1/L2, early stopping, data augmentation, dropout, label smoothing. Dropout во время обучения случайно зануляет часть activations, заставляя модель не полагаться на отдельные нейроны. В inverted dropout оставшиеся activations масштабируются на train, поэтому на inference dropout выключается без дополнительного пересчета масштаба. Ошибка - включить dropout на inference в обычном deterministic предсказании или не переключить model.eval() в PyTorch.