Назад к подготовке

ВопросСредняяmodel-selectionТехническое собеседование · inDrive

Переобучение, регуляризация и подбор гиперпараметров

Для бинарной классификации есть очень много признаков. Какие проблемы это создает, как заметить переобучение и как подбирать гиперпараметры без утечки в тест?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Много признаков повышает риск шума, мультиколлинеарности, утечек и переобучения. Переобучение видно по разрыву train/validation и нестабильности на holdout. Гиперпараметры подбирают на validation/CV, а test оставляют для финальной оценки.

Полный разбор

Большое число признаков может помочь, если данных достаточно и сигнал настоящий, но оно добавляет шум, мультиколлинеарность, риск утечек, стоимость обучения и вероятность того, что модель запомнит случайные артефакты. Переобучение обычно видно по разрыву между train и validation: train-качество улучшается, а validation стоит на месте или ухудшается. В продуктовых данных нужно следить за temporal split и leakage: случайный split может дать слишком оптимистичную оценку. Бороться можно feature selection, L1/L2-регуляризацией, ограничением сложности модели, early stopping, dropout/weight decay для нейросетей и ограничениями деревьев вроде max_depth, min_samples_leaf, subsampling и learning rate. Гиперпараметры выбирают на validation или CV, а финальный test используют один раз как независимую проверку.

Теория

Validation используется для выбора решений, test - для финального измерения качества.

Типичные ошибки

Много раз подбирать параметры по test set.
Считать, что cross-validation сама по себе устраняет переобучение.
Игнорировать temporal leakage в продуктовых логах.

Как отвечать на собеседовании

Назовите один сигнал переобучения и один способ борьбы.
Разделите роли train, validation и test.