Какие offline и online метрики у moderation-модели

Модель модерации работает в production. Какие метрики смотреть offline, online и после запуска, чтобы контролировать качество и нагрузку на ручную проверку?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Offline считаются precision/recall/F1 per class и confusion matrix. Online смотрят block/pass/review rates, appeals, moderator agreement, latency, queue load и safety incidents.

Полный разбор

Offline-метрики считаются по классам, потому что ошибка toxic != ошибка spam. Для auto-block обычно важна precision: продукт не хочет блокировать нормальный контент. Для dangerous content может быть важнее recall: система не должна пропускать критичные нарушения. Поэтому thresholds выбираются отдельно под action. Online-метрики связывают модель с workflow. Команда смотрит долю auto-pass, auto-block и manual review, acceptance rate модераторов, appeal rate, повторные жалобы, queue backlog, время обработки, latency API и долю fallback при ошибках сервиса. После запуска нужен мониторинг drift и policy changes. Если меняется язык пользователей, спам-атака или правила модерации, старый validation set перестает отражать реальность. Тогда команда добавляет свежую audit sample, пересматривает thresholds и обновляет regression suite.

Moderation evaluation соединяет ML-качество, стоимость ручной очереди и риск продукта. Одна aggregate F1 не показывает, какие действия стали лучше или хуже.