Переобучение, регуляризация и подбор гиперпараметров
Для бинарной классификации есть очень много признаков. Какие проблемы это создает, как заметить переобучение и как подбирать гиперпараметры без утечки в тест?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Много признаков повышает риск шума, мультиколлинеарности, утечек и переобучения. Переобучение видно по разрыву train/validation и нестабильности на holdout. Гиперпараметры подбирают на validation/CV, а test оставляют для финальной оценки.
Полный разбор
Большое число признаков может помочь, если данных достаточно и сигнал настоящий, но оно добавляет шум, мультиколлинеарность, риск утечек, стоимость обучения и вероятность того, что модель запомнит случайные артефакты.
Переобучение обычно видно по разрыву между train и validation: train-качество улучшается, а validation стоит на месте или ухудшается. В продуктовых данных нужно следить за temporal split и leakage: случайный split может дать слишком оптимистичную оценку.
Бороться можно feature selection, L1/L2-регуляризацией, ограничением сложности модели, early stopping, dropout/weight decay для нейросетей и ограничениями деревьев вроде max_depth, min_samples_leaf, subsampling и learning rate. Гиперпараметры выбирают на validation или CV, а финальный test используют один раз как независимую проверку.
Теория
Validation используется для выбора решений, test - для финального измерения качества.
Типичные ошибки
- Много раз подбирать параметры по test set.
- Считать, что cross-validation сама по себе устраняет переобучение.
- Игнорировать temporal leakage в продуктовых логах.
Как отвечать на собеседовании
- Назовите один сигнал переобучения и один способ борьбы.
- Разделите роли train, validation и test.