LTV/R365 и годовой data drift
Нужно прогнозировать выручку пользователя за 365 дней по ранним признакам. Почему прямой подход может плохо работать?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Для R365 нужны когорты, прожившие год, а значит train будет старым. За год продукт, маркетинг и поведение игроков меняются, поэтому появляется сильный train-test drift.
Полный разбор
Прямой прогноз R365 выглядит просто: взять признаки первых дней пользователя и обучить регрессию на накопленную выручку за 365 дней. Проблема в задержке target. Для полного label нужны пользователи, пришедшие минимум год назад. Если продукт быстро меняется, train-когорты уже не похожи на текущих пользователей.
Drift может прийти из новых источников трафика, изменения монетизации, баланса игры, промо, регионов, платежных механик и сезонности. Модель может хорошо работать на старом holdout и плохо ранжировать новые когорты.
Поэтому важно валидироваться по времени, смотреть качество на последних доступных когортах, мониторить calibration и не доверять случайному split по пользователям.
Теория
Длинный горизонт LTV дает точный бизнес-таргет, но создает задержку labels и усиливает data drift.
Типичные ошибки
- Делать random split вместо time split.
- Не учитывать изменения acquisition channel.
- Оценивать только RMSE без бизнес-срезов по когортам.