Bayes theorem для diagnostic test с base rate
Есть disease prevalence 1% и diagnostic test с 5% error rate. Если test result positive, как посчитать вероятность, что человек действительно болен, и где чаще всего ошибаются?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Нужно считать P(disease | positive) через Bayes: sensitivity * prevalence делится на все положительные результаты теста, включая false positives среди здоровых людей.
Подробный разбор
Обозначим D - человек болен, + - тест положительный. Если prevalence P(D)=0.01, sensitivity P(+|D)=0.95 и false positive rate P(+|not D)=0.05, то:
P(D|+) = P(+|D)P(D) / (P(+|D)P(D) + P(+|not D)P(not D)).
Подстановка дает 0.95 * 0.01 / (0.95 * 0.01 + 0.05 * 0.99), то есть около 16.1%. Интуитивно это низко из-за base-rate effect: здоровых людей намного больше, поэтому даже небольшой false positive rate создает много ложноположительных результатов.
Типовая ошибка - забыть умножить sensitivity на prevalence или принять 95% accuracy/sensitivity за P(disease|positive). В интервью важно явно проговорить, какая именно error rate дана: false positive/false negative, symmetric error или общая accuracy. Если формулировка неоднозначная, это надо уточнить.
Типичные ошибки
- Ответить 95%, перепутав P(+|D) и P(D|+).
- Забыть false positives среди здорового большинства.
- Не уточнить, что означает "5% error rate".
Как сказать на собеседовании
- Сначала задай обозначения D и +, затем выпиши знаменатель как сумму true positive и false positive mass.
- После формулы дай sanity check: болезнь редкая, поэтому posterior не может автоматически быть 95%.
Precision и recall на примере diagnostic test
Как определить precision и recall для binary classifier и чему они равны для diagnostic test из задачи с rare disease?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Recall = TP / (TP + FN), precision = TP / (TP + FP). Для теста recall равен sensitivity, а precision равен posterior P(disease | positive).
Подробный разбор
Recall отвечает на вопрос: какую долю реально positive объектов модель нашла. Формула: TP / (TP + FN). В диагностическом тесте, если sensitivity 95%, recall по sick class равен 95%.
Precision отвечает на вопрос: какая доля predicted positive действительно positive. Формула: TP / (TP + FP). Для rare disease это не 95%, а P(disease | positive), который считается через Bayes theorem. При prevalence 1%, sensitivity 95% и false positive rate 5% precision около 16.1%.
Это хороший пример, почему accuracy/sensitivity без base rate плохо описывает качество теста. При редком positive class даже сильный recall может сочетаться с низким precision, если false positives среди majority class многочисленны.
Типичные ошибки
- Называть precision и recall взаимозаменяемыми.
- Считать precision равным sensitivity.
- Игнорировать prevalence при интерпретации positive result.
Как сказать на собеседовании
- Свяжи recall с больными людьми, а precision с людьми, которым тест сказал positive.
- Скажи, что для rare class precision часто сильно падает из-за false positives.
От чего зависит sample size в A/B-тесте конверсии
В A/B-тесте сравниваем conversion rate control и treatment. От каких компонентов зависит минимальный sample size, чтобы обнаружить статистически значимый эффект?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Sample size растет при большей дисперсии метрики, более строгом alpha, большей required power и меньшем minimum detectable effect; для conversion он также зависит от baseline rate и allocation ratio.
Подробный разбор
Для A/B-теста conversion rate минимальный sample size зависит от нескольких вещей. Во-первых, от baseline conversion: variance у Bernoulli metric равна p(1-p), поэтому разные p требуют разных размеров выборки. Во-вторых, от minimum detectable effect: чем меньший lift хотим заметить, тем больше нужен sample.
Еще важны significance level alpha и statistical power 1-beta. Более строгий alpha снижает false positives и увеличивает sample size; более высокая power снижает false negatives и тоже увеличивает sample size. Если allocation между control/treatment не 50/50, общий sample size обычно растет.
В интервью достаточно назвать компоненты и объяснить направление влияния. Формулу можно дать через two-proportion z-test approximation: sample size масштабируется примерно как variance * (z_alpha + z_beta)^2 / MDE^2.
Типичные ошибки
- Говорить только "зависит от confidence interval" без MDE и power.
- Не учитывать baseline conversion для binary metric.
- Путать alpha и power.
Как сказать на собеседовании
- Всегда называй MDE: без него "минимальный sample size" не определен.
- Проговори inverse-square: эффект в два раза меньше требует примерно в четыре раза больше samples.
Maximum likelihood для biased coin
Дана серия бросков монеты с H heads и T tails. Как через maximum likelihood оценить probability of heads p и как проверить, что найден maximum?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Likelihood равен p^H(1-p)^T; log-likelihood равен H log p + T log(1-p). Из нулевой производной получаем p_hat = H/(H+T), а concavity подтверждает maximum.
Подробный разбор
Для Bernoulli trials likelihood равен L(p)=p^H(1-p)^T. Удобнее максимизировать log-likelihood: l(p)=H log p + T log(1-p). Производная: H/p - T/(1-p). Приравниваем к нулю:
H/p = T/(1-p) => H(1-p)=Tp => H = p(H+T) => p_hat = H/(H+T).
Чтобы убедиться, что это maximum, можно посмотреть вторую производную: -H/p^2 - T/(1-p)^2, она отрицательна для p in (0,1). Значит log-likelihood concave, а stationary point является global maximum. Также интуитивно likelihood на границах плохой, если есть и heads, и tails.
Типичные ошибки
- Максимизировать raw likelihood и запутаться в степенях вместо log-likelihood.
- Найти stationary point, но не проверить maximum.
- Забыть boundary cases H=0 или T=0.
Как сказать на собеседовании
- Сразу переходи к log-likelihood: это стандартный и устойчивый ход.
- После derivative обязательно скажи про concavity или вторую производную.
OLS, MLE и assumptions linear regression
Что такое linear regression, как получить аналитическое OLS-решение, когда оно не существует и при каких assumptions MLE дает тот же оптимум?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
OLS минимизирует squared residuals и дает решение (X^T X)^-1 X^T y, если X^T X обратима. При iid Gaussian zero-mean errors MLE совпадает с OLS.
Подробный разбор
Linear regression задает y_hat = Xw + b; обычно intercept включают как столбец единиц в X. OLS выбирает параметры, минимизирующие ||y - Xw||^2. Берем производную и приравниваем к нулю: получаем normal equations X^T X w = X^T y. Если X^T X обратима, то w = (X^T X)^-1 X^T y.
Аналитическое обратное решение недоступно или нестабильно, когда признаки линейно зависимы, X^T X singular или задача ill-conditioned. На практике используют pseudo-inverse, QR/SVD solvers, regularization вроде ridge или iterative optimization.
MLE дает тот же objective, когда residuals независимы, одинаково распределены, имеют Gaussian noise с нулевым средним и постоянной дисперсией, независимой от признаков: y_i = x_i^T w + eps_i, eps_i ~ N(0, sigma^2). Максимизация произведения Gaussian densities эквивалентна минимизации суммы квадратов residuals. Если ошибки heteroscedastic, correlated или non-Gaussian, OLS все еще можно использовать, но MLE objective и uncertainty estimates изменятся.
Типичные ошибки
- Говорить, что у linear regression всегда есть inverse solution.
- Игнорировать multicollinearity и singular X^T X.
- Утверждать, что MLE всегда равно OLS без Gaussian residual assumptions.
Как сказать на собеседовании
- Используй normal equations и сразу упомяни invertibility.
- Для MLE говори "likelihood of residuals under Gaussian noise", а не likelihood of coefficients.
Вопрос
Как объяснить bias-variance tradeoff, почему это не только синоним underfitting/overfitting и как интерпретировать high/low bias and variance cases?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Bias - систематическая ошибка из-за ограничительных предположений модели; variance - чувствительность к обучающей выборке. Under/overfitting - симптомы, а decomposition объясняет устойчивость модели и expected error.
Подробный разбор
Bias измеряет, насколько среднее предсказание модели далеко от истинной функции из-за слишком ограниченного класса моделей или предположений. Variance измеряет, насколько сильно обученная модель меняется при изменении обучающей выборки. Irreducible noise - часть ошибки, которую никакая модель не уберет.
Underfitting часто означает high bias; overfitting часто означает high variance. Но bias-variance шире: модель может иметь и high bias, и high variance, если она одновременно misspecified и unstable. Хорошая модель должна иметь приемлемо низкие bias и variance для конкретного режима данных. Низкая training error сама по себе не доказывает low variance.
Примеры: очень мелкое дерево может иметь high bias и low variance; одно глубокое дерево - low bias и high variance. Bagging/random forest снижает variance, усредняя нестабильные деревья. Boosting часто стартует от weak high-bias learners и снижает bias, последовательно исправляя residuals; regularization, pruning и больше данных помогают контролировать variance.
Типичные ошибки
- Приравнивать bias строго к underfitting, а variance строго к overfitting.
- Говорить, что random forest сам по себе high variance, потому что отдельные деревья high variance.
- Игнорировать irreducible noise и режим данных.
Как сказать на собеседовании
- Перед примерами дай по одному предложению определения bias и variance.
- Используй shallow tree, deep tree, bagging и boosting, чтобы приземлить ответ.