Поиск safe/unsafe видеофрагментов на большом масштабе
Представьте два видеосервиса с миллиардами роликов: в одном нужно быстро находить safe-фрагменты внутри в основном unsafe-контента, в другом - unsafe-фрагменты внутри в основном safe-контента. Разметки почти нет, ресурсов и времени мало. Как бы вы строили pipeline?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Нужен каскад поиска кандидатов: редкое семплирование кадров, дешёвые эвристики и лёгкие модели для recall, сигналы из metadata/text, затем более сильная VLM/frame model или human review для кандидатов. Отдельно нужны валидация с учётом class imbalance, временная агрегация и разные thresholds под риск.
Полный разбор
Сначала нужно разделить product risk. “Safe inside mostly unsafe” и “unsafe inside mostly safe” - обе rare-event mining задачи, но цена false negative/false positive разная. Во втором случае риск часто выше: пользователь не ожидает unsafe content на safe-площадке.
На масштабе миллиардов видео нельзя гонять тяжелую VLM по каждому frame. Первый stage должен быть дешевым: decode с низким sample rate, low resolution, scene-change detection, person/object detectors, простые visual classifiers, OCR/text metadata, title/category signals. Цель первого stage - candidate generation, а не финальное решение.
Второй stage запускает более сильную frame/clip model или VLM на candidate windows, агрегирует frame scores во временные segments и отправляет uncertain/high-impact cases на human labeling. Active learning должен добирать borderline examples, rare categories и случаи disagreement между metadata и model.
Для launch нужен balanced validation set с realistic prevalence slices, temporal smoothing, minimum segment length, thresholds по product surface, drift monitoring и feedback loop из moderation/appeals. При высоком риске лучше стартовать консервативно и отдельно измерять precision/recall по source domain, region и content type.
Теория
Large-scale moderation - это cascade design: cheap recall-oriented mining, затем expensive precision-oriented verification и risk calibration.
Типичные ошибки
- Предложить размечать каждый frame тяжелой VLM.
- Игнорировать class imbalance и realistic validation prevalence.
- Использовать один global threshold без учета product risk.
- Забыть temporal aggregation и segment-level metrics.
Как отвечать на собеседовании
- Начните с risk и class imbalance.
- Опишите two-stage или three-stage cascade, затем labels и metrics.