Назад к подготовке

ВопросСредняяstatistics-product-mlВопрос по метрикам на техническом собеседовании · Adapty Adapty

Bootstrap для оценки неопределенности LTV

Есть исторические пользователи и посчитанный LTV. Как использовать bootstrap, чтобы оценить разброс LTV и получить нижнюю границу для решения о закупке трафика?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Много раз семплируем пользователей с возвращением, пересчитываем LTV на каждом bootstrap-sample и берем квантили распределения оценок.

Полный разбор

Bootstrap отвечает на вопрос: как могла бы меняться оценка LTV, если бы мы снова собрали похожую выборку пользователей. Берем N пользователей из исходной когорты с возвращением, считаем LTV на такой выборке, повторяем тысячи раз. На выходе получаем распределение оценок LTV. Из него можно взять 5-й перцентиль как conservative lower bound, 50-й как медиану, 95-й как верхнюю границу. Если 5-й перцентиль выше CAC, маркетингу спокойнее закупать трафик; если ниже, риск выше. Важные детали: семплировать нужно на уровне независимой единицы, обычно пользователя или когорты, а не отдельной транзакции, если транзакции внутри пользователя зависимы. Также bootstrap плохо спасает, если историческая выборка не похожа на будущий трафик.

Теория

Bootstrap - непараметрический способ оценить uncertainty статистики через resampling исходных наблюдений.

Типичные ошибки

Семплировать транзакции вместо пользователей и сломать зависимость внутри user history.
Думать, что bootstrap исправляет selection bias.
Не переводить квантили в бизнес-решение.

Как отвечать на собеседовании

Скажи "sample users with replacement".
Обязательно назови lower quantile для marketing decision.