Вопрос
Как объяснить bias-variance tradeoff, почему это не только синоним underfitting/overfitting и как интерпретировать high/low bias and variance cases?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Bias - систематическая ошибка из-за ограничительных предположений модели; variance - чувствительность к обучающей выборке. Under/overfitting - симптомы, а decomposition объясняет устойчивость модели и expected error.
Полный разбор
Bias измеряет, насколько среднее предсказание модели далеко от истинной функции из-за слишком ограниченного класса моделей или предположений. Variance измеряет, насколько сильно обученная модель меняется при изменении обучающей выборки. Irreducible noise - часть ошибки, которую никакая модель не уберет.
Underfitting часто означает high bias; overfitting часто означает high variance. Но bias-variance шире: модель может иметь и high bias, и high variance, если она одновременно misspecified и unstable. Хорошая модель должна иметь приемлемо низкие bias и variance для конкретного режима данных. Низкая training error сама по себе не доказывает low variance.
Примеры: очень мелкое дерево может иметь high bias и low variance; одно глубокое дерево - low bias и high variance. Bagging/random forest снижает variance, усредняя нестабильные деревья. Boosting часто стартует от weak high-bias learners и снижает bias, последовательно исправляя residuals; regularization, pruning и больше данных помогают контролировать variance.
Теория
Decomposition объясняет expected generalization error как bias^2 + variance + irreducible noise. Это framework для model selection, а не просто две метки для плохих fit-ов.
Типичные ошибки
- Приравнивать bias строго к underfitting, а variance строго к overfitting.
- Говорить, что random forest сам по себе high variance, потому что отдельные деревья high variance.
- Игнорировать irreducible noise и режим данных.
Как отвечать на собеседовании
- Перед примерами дай по одному предложению определения bias и variance.
- Используй shallow tree, deep tree, bagging и boosting, чтобы приземлить ответ.