Какой constant classifier минимизирует binary logloss
Есть датасет с N0 отрицательными и N1 положительными примерами. Классификатор всегда выдает одну вероятность p. Какое p минимизирует binary logloss?
Короткий ответ
Оптимальная константа равна доле положительного класса: p = N1 / (N0 + N1).
Полный разбор
Binary logloss для константного предсказания:
`L(p) = -N1 log(p) - N0 log(1-p)`.
Берем производную:
`dL/dp = -N1 / p + N0 / (1-p)`.
Приравниваем к нулю:
`N1 / p = N0 / (1-p)`, значит `N1(1-p)=N0p`, откуда `p = N1 / (N0 + N1)`.
Интерпретация: если модель ничего не знает о признаках и должна выдавать одну вероятность для всех объектов, лучший calibrated прогноз - это base rate положительного класса.
Теория
Logloss является proper scoring rule: минимальный ожидаемый loss достигается, когда предсказанная вероятность равна истинной вероятности события. Для константной модели истинная вероятность оценивается class prior.
Типичные ошибки
- Ответить 0.5 независимо от class balance.
- Потерять знак при дифференцировании log(1-p).
- Не ограничить p интервалом (0, 1).
Как отвечать на собеседовании
- Сначала запиши loss по N0/N1, потом производную.
- После формулы дай интуицию: оптимум равен base rate.