Назад к подготовке

Feedback loop от текущей pricing policy

Можно ли дообучать модель на данных, которые сгенерировала текущая модель доставки? Какие риски?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Можно, но только с контролем policy bias: модель видит последствия своих же действий и может сузить exploration или усилить ошибки.

Полный разбор

Данные текущей политики полезны, потому что они свежие, но они смещены: модель чаще показывает действия, которые уже считает хорошими. Поэтому в датасете будет мало информации о непопулярных, но потенциально полезных вариантах.

Риски: collapse exploration, усиление city/user bias, деградация редких сценариев, неверная оценка counterfactual вариантов. Нужно логировать policy version, action propensity, confidence, держать exploration/control slice и сравнивать distribution shift относительно старых данных.

Дообучение должно проходить через offline validation, shadow/dry-run, A/B и guardrails, а не автоматически перезаписывать policy каждый день.

Теория

Feedback-loop bias возникает, когда модель обучается на распределении, которое сама же меняет своими решениями.

Типичные ошибки

  • Считать свежие данные всегда лучше старых.
  • Не логировать policy version.
  • Не держать exploration/control трафик.

Как отвечать на собеседовании

  • Назови policy bias и action propensity.
  • Предложи control slice и мониторинг shift.