ВопросHardmlsd-pricingРеальный собес

Feedback loop от текущей pricing policy

Можно ли дообучать модель на данных, которые сгенерировала текущая модель доставки? Какие риски?

Короткий ответ

Можно, но только с контролем policy bias: модель видит последствия своих же действий и может сузить exploration или усилить ошибки.

Полный разбор

Данные текущей политики полезны, потому что они свежие, но они смещены: модель чаще показывает действия, которые уже считает хорошими. Поэтому в датасете будет мало информации о непопулярных, но потенциально полезных вариантах.

Риски: collapse exploration, усиление city/user bias, деградация редких сценариев, неверная оценка counterfactual вариантов. Нужно логировать policy version, action propensity, confidence, держать exploration/control slice и сравнивать distribution shift относительно старых данных.

Дообучение должно проходить через offline validation, shadow/dry-run, A/B и guardrails, а не автоматически перезаписывать policy каждый день.

Теория

Feedback-loop bias возникает, когда модель обучается на распределении, которое сама же меняет своими решениями.

Типичные ошибки

Считать свежие данные всегда лучше старых.
Не логировать policy version.
Не держать exploration/control трафик.

Как отвечать на собеседовании

Назови policy bias и action propensity.
Предложи control slice и мониторинг shift.