Назад к подготовке

Feature importance и коррелированные признаки

Почему feature importance может обманывать, если признаки сильно коррелируют?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Взаимозаменяемые признаки делят важность между собой. Удаление или перемешивание одного признака может почти не ухудшить модель, потому что другой несет тот же сигнал.

Полный разбор

Feature importance зависит от метода. Gain importance в деревьях может выбрать один из коррелированных признаков и занизить остальные. Permutation importance может занизить каждый признак по отдельности, потому что после перемешивания одного модель все еще использует второй похожий сигнал.

SHAP тоже требует осторожности: при зависимых признаках распределение вклада между ними зависит от assumptions. Поэтому correlated features лучше анализировать группами, смотреть stability между folds, делать ablation групп и проверять, нужна ли интерпретируемость или только качество.

Для отбора признаков полезны: correlation clustering, drop-column importance по группам, regularization, domain constraints и проверка на leakage.

Теория

Важность признака - не физическое свойство признака, а результат модели, данных и метода измерения.

Типичные ошибки

  • Удалять признаки только по низкой individual importance.
  • Не проверять leakage среди слишком сильных признаков.
  • Сравнивать importance между моделями без одинакового протокола.