Bias-variance trade-off у Random Forest
Почему Random Forest обычно снижает variance по сравнению с одним деревом и какие trade-offs остаются?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Random Forest усредняет много decorrelated деревьев: variance падает, bias обычно остается низким, но растут стоимость, latency и хуже интерпретируемость.
Полный разбор
Одно глубокое дерево имеет низкий bias, но высокий variance: сильно реагирует на изменения train data. Random Forest обучает деревья на bootstrap samples и случайных подмножествах признаков, поэтому ошибки деревьев частично независимы.
Усреднение снижает variance. Trade-offs: больше compute и memory, сложнее интерпретация, хуже extrapolation, а при слишком коррелированных деревьях эффект усреднения слабее. Параметры max_depth, min_samples_leaf, max_features и n_estimators управляют bias/variance.