Regularization и dropout: train vs inference
Что такое regularization, как работает dropout и почему поведение отличается на train и inference?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Regularization ограничивает переобучение; dropout на train случайно зануляет activations, а на inference использует всю сеть с корректным scale.
Полный разбор
Regularization снижает способность модели запоминать train noise: L1/L2, early stopping, data augmentation, dropout, label smoothing. Dropout во время обучения случайно зануляет часть activations, заставляя модель не полагаться на отдельные нейроны.
В inverted dropout оставшиеся activations масштабируются на train, поэтому на inference dropout выключается без дополнительного пересчета масштаба. Ошибка - включить dropout на inference в обычном deterministic предсказании или не переключить model.eval() в PyTorch.