К тренажеру
ВопросMediumstatistics-product-mlМой собес

Bootstrap для оценки неопределенности LTV

Есть исторические пользователи и посчитанный LTV. Как использовать bootstrap, чтобы оценить разброс LTV и получить нижнюю границу для решения о закупке трафика?

Короткий ответ

Много раз семплируем пользователей с возвращением, пересчитываем LTV на каждом bootstrap-sample и берем квантили распределения оценок.

Полный разбор

Bootstrap отвечает на вопрос: как могла бы меняться оценка LTV, если бы мы снова собрали похожую выборку пользователей. Берем N пользователей из исходной когорты с возвращением, считаем LTV на такой выборке, повторяем тысячи раз.

На выходе получаем распределение оценок LTV. Из него можно взять 5-й перцентиль как conservative lower bound, 50-й как медиану, 95-й как верхнюю границу. Если 5-й перцентиль выше CAC, маркетингу спокойнее закупать трафик; если ниже, риск выше.

Важные детали: семплировать нужно на уровне независимой единицы, обычно пользователя или когорты, а не отдельной транзакции, если транзакции внутри пользователя зависимы. Также bootstrap плохо спасает, если историческая выборка не похожа на будущий трафик.

Теория

Bootstrap - непараметрический способ оценить uncertainty статистики через resampling исходных наблюдений.

Типичные ошибки

  • Семплировать транзакции вместо пользователей и сломать зависимость внутри user history.
  • Думать, что bootstrap исправляет selection bias.
  • Не переводить квантили в бизнес-решение.

Как отвечать на собеседовании

  • Скажи "sample users with replacement".
  • Обязательно назови lower quantile для marketing decision.