Вопрос
Когда выбирать линейную модель, а когда tree-based model или boosting?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Линейные модели просты, интерпретируемы и устойчивы на малых данных; деревья и boosting лучше ловят нелинейности и interactions, но требуют контроля overfitting.
Полный разбор
Линейная модель сильна как baseline: быстро обучается, понятна, хорошо работает с разреженными признаками и проще интерпретируется. Ее слабость - ограниченная форма зависимости, если не добавить interactions, transformations или нелинейные признаки.
Tree-based models автоматически ловят thresholds, нелинейности и interactions. Random forest снижает variance через bagging, gradient boosting последовательно исправляет ошибки предыдущих деревьев. Цена - больше tuning, риск overfitting, сложнее extrapolation и необходимость аккуратной валидации по time/user/group split.