Feedback loop от текущей pricing policy
Можно ли дообучать модель на данных, которые сгенерировала текущая модель доставки? Какие риски?
Короткий ответ
Можно, но только с контролем policy bias: модель видит последствия своих же действий и может сузить exploration или усилить ошибки.
Полный разбор
Данные текущей политики полезны, потому что они свежие, но они смещены: модель чаще показывает действия, которые уже считает хорошими. Поэтому в датасете будет мало информации о непопулярных, но потенциально полезных вариантах.
Риски: collapse exploration, усиление city/user bias, деградация редких сценариев, неверная оценка counterfactual вариантов. Нужно логировать policy version, action propensity, confidence, держать exploration/control slice и сравнивать distribution shift относительно старых данных.
Дообучение должно проходить через offline validation, shadow/dry-run, A/B и guardrails, а не автоматически перезаписывать policy каждый день.
Теория
Feedback-loop bias возникает, когда модель обучается на распределении, которое сама же меняет своими решениями.
Типичные ошибки
- Считать свежие данные всегда лучше старых.
- Не логировать policy version.
- Не держать exploration/control трафик.
Как отвечать на собеседовании
- Назови policy bias и action propensity.
- Предложи control slice и мониторинг shift.