К тренажеру
ВопросMediumstatisticsРеальный собес

P-value и формула Байеса

Как коротко объяснить p-value, где он применяется, и как вывести формулу Байеса через условную вероятность и полную вероятность?

Короткий ответ

P-value - вероятность получить статистику не менее экстремальную при верной H0; Байес следует из P(A|B)=P(A∩B)/P(B) и разложения P(B) по гипотезам.

Полный разбор

P-value лучше формулировать аккуратно: это вероятность при нулевой гипотезе увидеть наблюдаемое или более экстремальное значение статистики. Это не вероятность того, что H0 верна. В продуктовой практике p-value часто появляется в A/B-тестах.

Формула Байеса выводится из определения условной вероятности: P(A|B)=P(A and B)/P(B), а P(A and B)=P(B|A)P(A). Если гипотез несколько, знаменатель раскладывается по полной вероятности: сумма P(B|Ai)P(Ai).

На интервью важно не только написать формулу, но и объяснить, что является гипотезой, что наблюдением и какие prior/likelihood участвуют.

Теория

Bayesian update переводит prior в posterior после наблюдения, взвешивая гипотезы likelihood наблюдения.

Типичные ошибки

  • Называть p-value вероятностью истинности нулевой гипотезы.
  • Забывать знаменатель в формуле Байеса.
  • Не отделять prior от likelihood.

Как отвечать на собеседовании

  • Для p-value произнеси "при условии, что H0 верна".
  • Для Байеса сразу обозначь гипотезу и наблюдение.