ВопросHardml-evaluationРеальный собес

Метрики для safety-critical rare events

Для редких safety-critical событий false negative дороже false positive. Какие метрики и threshold strategy выбрать?

Короткий ответ

Основной фокус - recall / false negative rate при минимально приемлемой precision и review budget. Смотреть PR-AUC, recall@fixed precision, per-class thresholds и slice metrics по редким условиям.

Полный разбор

Accuracy почти бесполезна при редких событиях. Если пропуск события дорогой, нужно выбирать threshold под high recall или под bound на false negative rate. Но нельзя игнорировать precision: если модель отдает слишком много false positives, downstream review или simulation pipeline может захлебнуться.

Практичный набор: PR-AUC, recall@precision>=P, precision@review_budget, per-class F1 только как вторичная метрика, confusion matrix по каждому событию, calibration и per-slice metrics. Threshold-и лучше подбирать отдельно по событиям, потому что base rate и цена ошибки разные.

Для safety-critical задач важно показывать hard examples и confidence bands: редкие классы легко переоценить на маленьком validation set.

Теория

При class imbalance ROC-AUC может выглядеть красиво, но плохо отражать качество top alerts. Precision-recall метрики обычно честнее.

Типичные ошибки

Оптимизировать accuracy.
Выбрать один threshold для всех событий без учета base rate.
Не учитывать downstream review budget.

Как отвечать на собеседовании

Скажи: high recall subject to acceptable precision/review budget.
Упомяни PR-AUC, per-class thresholds и slice metrics.