Зачем нужны residual connections
Почему residual connections помогают обучать глубокие сети?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Residual connection учит добавку F(x) к identity x, улучшает gradient flow и облегчает обучение очень глубоких сетей.
Полный разбор
Вместо прямого обучения сложного отображения H(x) блок учит residual F(x), а выход равен x + F(x). Если оптимально почти ничего не менять, блоку проще приблизить F(x)=0, чем выучить identity с нуля.
Skip connection дает более короткий путь для градиента и снижает проблему деградации качества при увеличении глубины. Поэтому residual blocks стали базой ResNet, Transformer-блоков и многих современных архитектур.