100 экспериментов и ложные открытия
Если провести 100 независимых тестов на уровне значимости 5%, что означает два p-value ниже 0.05?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
При 100 истинных H0 ожидается около 5 ложноположительных результатов. Два значимых результата сами по себе не сильное доказательство без multiple-testing correction.
Полный разбор
Если все 100 нулевых гипотез истинны и тесты независимы, уровень значимости 5% означает ожидаемо около пяти false positives. Поэтому два p-value ниже 0.05 могут быть полностью совместимы со случайностью, особенно если тесты выбирались постфактум.
Для контроля используют Bonferroni, Holm, Benjamini-Hochberg/FDR или заранее фиксируют primary metrics. В продуктовых экспериментах также важно отделять exploratory analysis от confirmatory test и не выбирать метрику после просмотра результатов.