Bias-variance trade-off у Random Forest

Почему Random Forest обычно снижает variance по сравнению с одним деревом и какие trade-offs остаются?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Random Forest усредняет много decorrelated деревьев: variance падает, bias обычно остается низким, но растут стоимость, latency и хуже интерпретируемость.

Полный разбор

Одно глубокое дерево имеет низкий bias, но высокий variance: сильно реагирует на изменения train data. Random Forest обучает деревья на bootstrap samples и случайных подмножествах признаков, поэтому ошибки деревьев частично независимы. Усреднение снижает variance. Trade-offs: больше compute и memory, сложнее интерпретация, хуже extrapolation, а при слишком коррелированных деревьях эффект усреднения слабее. Параметры max_depth, min_samples_leaf, max_features и n_estimators управляют bias/variance.