Как собрать данные и классы для модели модерации
Для moderation-модели нужны классы и данные. Как собрать labels, обработать дисбаланс и не смешать разные политики в один шумный датасет?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Данные приходят из ручной модерации, жалоб, исторических решений, open datasets и augmentation. Label taxonomy фиксирует классы, инструкции, ambiguous cases и disagreement handling.
Полный разбор
Сначала команда фиксирует policy taxonomy: какие классы действительно нужны продукту и какие действия они запускают. Например, clean, toxic, hate, insult, spam, self-harm или доменные нарушения. Для каждого класса нужны инструкции и примеры, иначе модераторы будут размечать разные вещи под одним названием.
Источники данных: историческая ручная модерация, жалобы пользователей, выборка обычного контента, open datasets, перевод/augmentation и специально собранные hard cases. Исторические решения нельзя брать без проверки, потому что политика могла меняться, а очередь модерации уже смещена в сторону подозрительного контента.
Дисбаланс решается не только oversampling. Нужны stratified batches, class weights или focal loss, отдельный validation set по редким классам, adjudication спорных примеров и регулярное обновление данных после изменения политики.
Теория
В модерации качество labels определяется не только моделью, но и ясностью политики. Разные классы часто требуют разных thresholds и разных действий.