ВопросMediumevaluationРеальный собес

Метрики для ML-модерации и anti-fraud

Какими offline и product metrics оценивать модель, которая отправляет подозрительные объявления на модерацию?

Короткий ответ

Offline: precision/recall/PR-AUC по размеченным кейсам; product: снижение жалоб, доля найденных fraud cases, нагрузка на модераторов, false positive rate.

Полный разбор

В модерации precision часто важнее recall, потому что false positives тратят время или могут вредить легитимным продавцам. Полезны coverage по жалобам, hit rate в очереди модерации, latency и capacity. Online эффект лучше мерить staged rollout или A/B: жалобы, appeals, manual review acceptance rate.

Complaint dataset почти всегда biased, поэтому нужен отдельный audit sample и анализ tail-сегментов.

Теория

Это cost-sensitive evaluation: цена false positive и false negative разная, и threshold выбирается под бизнес-действие.

Типичные ошибки

Оптимизировать accuracy на несбалансированном датасете.
Игнорировать capacity модераторов.
Считать complaint dataset unbiased.

Как отвечать на собеседовании

Привяжи метрику к действию: auto-reject, manual review или ranking.