Назад к подготовке

Вопрос

Когда выбирать линейную модель, а когда tree-based model или boosting?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Линейные модели просты, интерпретируемы и устойчивы на малых данных; деревья и boosting лучше ловят нелинейности и interactions, но требуют контроля overfitting.

Полный разбор

Линейная модель сильна как baseline: быстро обучается, понятна, хорошо работает с разреженными признаками и проще интерпретируется. Ее слабость - ограниченная форма зависимости, если не добавить interactions, transformations или нелинейные признаки.

Tree-based models автоматически ловят thresholds, нелинейности и interactions. Random forest снижает variance через bagging, gradient boosting последовательно исправляет ошибки предыдущих деревьев. Цена - больше tuning, риск overfitting, сложнее extrapolation и необходимость аккуратной валидации по time/user/group split.