Bootstrap: что он делает
Для чего нужен bootstrap и почему он сам по себе не уменьшает дисперсию эксперимента?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Bootstrap оценивает распределение статистики через resampling и строит интервалы для сложных метрик. Он не добавляет информации в данные и не снижает реальную variance.
Полный разбор
Bootstrap многократно семплирует наблюдения с возвращением из имеющегося датасета и пересчитывает статистику. Так можно оценить стандартную ошибку, confidence interval или распределение сложной метрики, для которой нет простой аналитической формулы.
Он не делает эксперимент более чувствительным сам по себе: данных не становится больше, signal-to-noise не растет. Для variance reduction нужны ковариаты, дизайн эксперимента, стратификация или другая метрика, а bootstrap помогает честнее оценить неопределенность выбранной статистики.