Как работать с пропусками и шумом в данных

В датасете есть missing values и шумные признаки. Как системно обработать их до обучения и в production?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Сначала понять механизм пропусков и шума, затем выбрать imputation/filtering, добавить missing indicators, валидировать без leakage и мониторить drift.

Полный разбор

Пропуски бывают MCAR/MAR/MNAR: случайные, зависящие от наблюдаемых факторов или несущие отдельный сигнал. Базовые варианты: constant/median/category imputation, отдельная категория unknown, model-based imputation, missing indicator. Шум обрабатывается правилами валидности, winsorization/clipping, robust losses, outlier flags или удалением только при понятной причине. Важно считать imputation statistics только на train и фиксировать тот же preprocessing в serving. В production нужны алерты на долю пропусков, новые категории, распределения признаков и schema violations.