P-value и формула Байеса
Как коротко объяснить p-value, где он применяется, и как вывести формулу Байеса через условную вероятность и полную вероятность?
Короткий ответ
P-value - вероятность получить статистику не менее экстремальную при верной H0; Байес следует из P(A|B)=P(A∩B)/P(B) и разложения P(B) по гипотезам.
Полный разбор
P-value лучше формулировать аккуратно: это вероятность при нулевой гипотезе увидеть наблюдаемое или более экстремальное значение статистики. Это не вероятность того, что H0 верна. В продуктовой практике p-value часто появляется в A/B-тестах.
Формула Байеса выводится из определения условной вероятности: P(A|B)=P(A and B)/P(B), а P(A and B)=P(B|A)P(A). Если гипотез несколько, знаменатель раскладывается по полной вероятности: сумма P(B|Ai)P(Ai).
На интервью важно не только написать формулу, но и объяснить, что является гипотезой, что наблюдением и какие prior/likelihood участвуют.
Теория
Bayesian update переводит prior в posterior после наблюдения, взвешивая гипотезы likelihood наблюдения.
Типичные ошибки
- Называть p-value вероятностью истинности нулевой гипотезы.
- Забывать знаменатель в формуле Байеса.
- Не отделять prior от likelihood.
Как отвечать на собеседовании
- Для p-value произнеси "при условии, что H0 верна".
- Для Байеса сразу обозначь гипотезу и наблюдение.