Как обучается градиентный бустинг

Объясните интуицию gradient boosting: что учит каждое следующее дерево и как это связано с loss.

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Boosting строит ансамбль последовательно: новое дерево приближает антиградиент loss по текущим предсказаниям; для MSE это residuals.

Полный разбор

Модель имеет вид суммы слабых моделей. На каждом шаге считаются производные loss по текущим предсказаниям. Следующее дерево обучается предсказывать направление, в котором нужно поправить prediction, то есть negative gradient. Для squared error negative gradient совпадает с y - prediction, поэтому говорят, что дерево учится на residuals. Для logloss идея та же, но targets следующего шага уже не простые residuals, а градиенты loss.