Градиент и vanishing gradient
Что такое градиент и почему в глубоких сетях возникает затухающий градиент?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Градиент показывает направление роста loss по параметрам; vanishing gradient возникает, когда произведение малых производных почти зануляет сигнал для ранних слоев.
Полный разбор
Градиент loss по параметрам показывает, как нужно менять параметры, чтобы уменьшать loss. В backprop градиент проходит через цепочку производных слоев.
Если производные или спектральные нормы якобианов меньше единицы, их произведение быстро уменьшается с глубиной. Поэтому ранние слои получают очень слабый сигнал и почти не обучаются. Типичные меры: ReLU/GELU вместо насыщаемых sigmoid/tanh, residual connections, normalization, правильная initialization и gradient clipping для exploding gradient.