Skip connection и зачем он нужен
Что такое skip connection и почему residual-связи помогают обучать глубокие сети?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Skip connection добавляет вход блока к его выходу, облегчает поток градиента и позволяет блоку учить поправку F(x), а не всю функцию с нуля.
Полный разбор
В residual block выход часто имеет вид y = x + F(x). Это дает прямой путь для информации и градиента через сеть, поэтому глубокую модель проще оптимизировать.
Блок может учить не всю трансформацию с нуля, а поправку к входу. Это помогает против vanishing gradient, стабилизирует обучение и позволяет строить существенно более глубокие архитектуры, например ResNet и Transformer-блоки с residual connections.