Проверка данных от новой pricing policy

После запуска новой модели доставки появляются свежие данные. Как понять, можно ли включать их в обучение следующей версии?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Перед retraining проверяются policy version, action coverage, propensity, distribution shift, missing/freshness features, guardrail slices и сравнение с exploration/control traffic.

Полный разбор

Данные новой политики свежие, но они уже отфильтрованы решениями модели. Для обучения следующей версии нужно понять, какие действия реально показывались, в каких сегментах, с какой вероятностью и где остались blind spots. Минимальные проверки: policy version и experiment arm в логах, action coverage по grid, distribution shift user/unit/zone/cart, missing и freshness фичей, стабильность labels, доля fallback, негативные guardrails и качество редких сегментов. Если была exploration slice или control traffic, новые данные сравниваются с ними. Если новая policy сузила выбор действий, supervised retraining может закрепить ошибки и потерять counterfactual сигнал. Тогда нужны propensity weighting, conservative updates, отдельный holdout старой политики или продолжение controlled exploration.

Fresh data не является automatically better data. В decision systems качество датасета определяется покрытием действий и смещением логирующей политики.