Debugging плохой метрики модели

Что проверять, если ranking/model metric неожиданно низкая или модель выглядит overfit/underfit?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Проверяются данные, leakage, split, labels, baseline, feature distributions, train/validation gap, slices, ablations и способность модели переобучиться на маленьком датасете.

Полный разбор

Debug начинается с sanity checks: корректный target, нет leakage, split соответствует production, labels не перепутаны, baseline воспроизводится, метрика считается правильно. Затем смотрят train vs validation: большой gap указывает на overfitting, плохие обе метрики - на underfitting, слабые признаки или баг данных. Полезны slice analysis, feature importance/ablations, distribution drift, проверка missing values, small-data overfit test и сравнение с простыми моделями. Для ranking отдельно проверяют candidate generation: reranker не исправит ситуацию, если нужный объект не попал в candidates.