Назад к подготовке

ВопросСредняяltv-modelingML System Design на техническом собеседовании · EasyBrain

LTV/R365 и годовой data drift

Нужно прогнозировать выручку пользователя за 365 дней по ранним признакам. Почему прямой подход может плохо работать?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Для R365 нужны когорты, прожившие год, а значит train будет старым. За год продукт, маркетинг и поведение игроков меняются, поэтому появляется сильный train-test drift.

Полный разбор

Прямой прогноз R365 выглядит просто: взять признаки первых дней пользователя и обучить регрессию на накопленную выручку за 365 дней. Проблема в задержке target. Для полного label нужны пользователи, пришедшие минимум год назад. Если продукт быстро меняется, train-когорты уже не похожи на текущих пользователей. Drift может прийти из новых источников трафика, изменения монетизации, баланса игры, промо, регионов, платежных механик и сезонности. Модель может хорошо работать на старом holdout и плохо ранжировать новые когорты. Поэтому важно валидироваться по времени, смотреть качество на последних доступных когортах, мониторить calibration и не доверять случайному split по пользователям.

Теория

Длинный горизонт LTV дает точный бизнес-таргет, но создает задержку labels и усиливает data drift.

Типичные ошибки

Делать random split вместо time split.
Не учитывать изменения acquisition channel.
Оценивать только RMSE без бизнес-срезов по когортам.