Теория + Интерактив

Метрики бинарной классификации

Интерактивный гайд: двигайте порог, кликайте точки, наблюдайте как меняются precision, recall и ROC-кривая в реальном времени.

Confusion Matrix

Confusion matrix — основа понимания любого бинарного классификатора. Каждый ответ модели попадает в одну из четырёх ячеек: предсказанный класс (positive или negative) скрещивается с истинным классом.

True Positive (TP): модель предсказала «положительный», объект действительно положительный. False Positive (FP): модель предсказала «положительный», но объект отрицательный — ложная тревога. False Negative (FN): модель предсказала «отрицательный», но объект положительный — пропуск. True Negative (TN): модель предсказала «отрицательный», объект действительно отрицательный.

TP

True Positive

FP

False Positive

FN

False Negative

TN

True Negative

Четыре исхода теста на COVID

TP: болен, тест положительный. FP: здоров, тест положительный (ложная тревога). FN: болен, тест отрицательный (пропуск). TN: здоров, тест отрицательный.

Precision

Precision (точность) показывает, какая доля объектов, предсказанных как положительные, действительно является положительными. Высокий precision означает мало ложных тревог.

Метрика отвечает на вопрос: «Из всех объектов, которые модель пометила как положительные, сколько из них действительно таковы?» При низком precision модель часто ошибается, называя отрицательные примеры положительными.

Почему precision важна в спам-фильтре

Если precision низкая — важные письма попадают в спам. Пользователь видит ложную тревогу.

Recall (Sensitivity)

Recall (полнота) показывает, какую долю реальных положительных объектов модель смогла обнаружить. Высокий recall означает мало пропущенных положительных примеров.

Метрика отвечает на вопрос: «Из всех объектов, которые действительно являются положительными, сколько из них нашла модель?» При низком recall модель пропускает слишком много настоящих положительных случаев.

Почему recall важна в медицине

Если recall низкая — рак не диагностируется. Цена ложно-отрицательного результата — жизнь.

F1-Score

F1-score — гармоническое среднее precision и recall. Метрика балансирует оба показателя: если precision или recall низкий, F1 тоже будет низким. Высокий F1 требует хорошего качества по обоим критериям одновременно.

F1 особенно полезен, когда нужна одна метрика, учитывающая оба типа ошибок. Гармоническое среднее строже обычного — оно «штрафует» за большую разницу между precision и recall.

Почему F1 важна при выявлении мошенничества

Данные несбалансированы (мало мошенников). F1 учитывает оба типа ошибок одновременно.

Accuracy

Accuracy (точность классификации) — доля правильных предсказаний среди всех объектов. Простая и интуитивная метрика: чем выше, тем больше правильных ответов даёт модель.

Однако accuracy вводит в заблуждение на несбалансированных данных. Если один класс доминирует, модель, всегда предсказывающая большинство, получает высокую accuracy без реального обучения. В таких случаях F1 или PR-кривая честнее.

Почему accuracy обманывает на несбалансированных данных

Если мошенников 1%, модель предсказывающая «не мошенник» всегда достигает accuracy 99%.

ROC-AUC

ROC-кривая строится путём построения True Positive Rate (recall) против False Positive Rate при разных порогах классификации. AUC (Area Under Curve) суммирует качество кривой одним числом.

AUC = 1 означает идеальное разделение классов, AUC = 0.5 — случайное угадывание. Метрика показывает, насколько хорошо модель различает классы при любом выбранном пороге — независимо от конкретного значения отсечения.

Как ROC-кривая помогает выбрать порог в скрининге

AUC показывает: насколько модель отличает больных от здоровых при любом пороге.

PR-кривая

PR-кривая (Precision-Recall curve) строит зависимость precision от recall при разных порогах. Average Precision (AP) суммирует кривую: это площадь под ней, взвешенная по изменениям recall.

На сильно несбалансированных данных PR-кривая информативнее ROC: она фокусируется на производительности именно для положительного класса и не скрывает проблемы за большим количеством правильно угаданных отрицательных примеров.

Когда PR-кривая информативнее ROC

На сильно несбалансированных данных ROC выглядит слишком оптимистично. PR честнее.

Загрузка интерактивного виджета...