Назад к подготовке
ВопросСредняяdeep-learningТехническое собеседование · Sber

Градиент и vanishing gradient

Что такое градиент и почему в глубоких сетях возникает затухающий градиент?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Градиент показывает направление роста loss по параметрам; vanishing gradient возникает, когда произведение малых производных почти зануляет сигнал для ранних слоев.

Полный разбор

Градиент loss по параметрам показывает, как нужно менять параметры, чтобы уменьшать loss. В backprop градиент проходит через цепочку производных слоев.

Если производные или спектральные нормы якобианов меньше единицы, их произведение быстро уменьшается с глубиной. Поэтому ранние слои получают очень слабый сигнал и почти не обучаются. Типичные меры: ReLU/GELU вместо насыщаемых sigmoid/tanh, residual connections, normalization, правильная initialization и gradient clipping для exploding gradient.