Как обучается градиентный бустинг
Объясните интуицию gradient boosting: что учит каждое следующее дерево и как это связано с loss.
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Boosting строит ансамбль последовательно: новое дерево приближает антиградиент loss по текущим предсказаниям; для MSE это residuals.
Полный разбор
Модель имеет вид суммы слабых моделей. На каждом шаге считаются производные loss по текущим предсказаниям. Следующее дерево обучается предсказывать направление, в котором нужно поправить prediction, то есть negative gradient.
Для squared error negative gradient совпадает с y - prediction, поэтому говорят, что дерево учится на residuals. Для logloss идея та же, но targets следующего шага уже не простые residuals, а градиенты loss.