Bootstrap для оценки неопределенности LTV
Есть исторические пользователи и посчитанный LTV. Как использовать bootstrap, чтобы оценить разброс LTV и получить нижнюю границу для решения о закупке трафика?
Короткий ответ
Много раз семплируем пользователей с возвращением, пересчитываем LTV на каждом bootstrap-sample и берем квантили распределения оценок.
Полный разбор
Bootstrap отвечает на вопрос: как могла бы меняться оценка LTV, если бы мы снова собрали похожую выборку пользователей. Берем N пользователей из исходной когорты с возвращением, считаем LTV на такой выборке, повторяем тысячи раз.
На выходе получаем распределение оценок LTV. Из него можно взять 5-й перцентиль как conservative lower bound, 50-й как медиану, 95-й как верхнюю границу. Если 5-й перцентиль выше CAC, маркетингу спокойнее закупать трафик; если ниже, риск выше.
Важные детали: семплировать нужно на уровне независимой единицы, обычно пользователя или когорты, а не отдельной транзакции, если транзакции внутри пользователя зависимы. Также bootstrap плохо спасает, если историческая выборка не похожа на будущий трафик.
Теория
Bootstrap - непараметрический способ оценить uncertainty статистики через resampling исходных наблюдений.
Типичные ошибки
- Семплировать транзакции вместо пользователей и сломать зависимость внутри user history.
- Думать, что bootstrap исправляет selection bias.
- Не переводить квантили в бизнес-решение.
Как отвечать на собеседовании
- Скажи "sample users with replacement".
- Обязательно назови lower quantile для marketing decision.