Проверка данных от новой pricing policy
После запуска новой модели доставки появляются свежие данные. Как понять, можно ли включать их в обучение следующей версии?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Перед retraining проверяются policy version, action coverage, propensity, distribution shift, missing/freshness features, guardrail slices и сравнение с exploration/control traffic.
Полный разбор
Данные новой политики свежие, но они уже отфильтрованы решениями модели. Для обучения следующей версии нужно понять, какие действия реально показывались, в каких сегментах, с какой вероятностью и где остались blind spots.
Минимальные проверки: policy version и experiment arm в логах, action coverage по grid, distribution shift user/unit/zone/cart, missing и freshness фичей, стабильность labels, доля fallback, негативные guardrails и качество редких сегментов. Если была exploration slice или control traffic, новые данные сравниваются с ними.
Если новая policy сузила выбор действий, supervised retraining может закрепить ошибки и потерять counterfactual сигнал. Тогда нужны propensity weighting, conservative updates, отдельный holdout старой политики или продолжение controlled exploration.
Теория
Fresh data не является automatically better data. В decision systems качество датасета определяется покрытием действий и смещением логирующей политики.