Назад к подготовке

Поиск safe/unsafe видеофрагментов на большом масштабе

Представьте два видеосервиса с миллиардами роликов: в одном нужно быстро находить safe-фрагменты внутри в основном unsafe-контента, в другом - unsafe-фрагменты внутри в основном safe-контента. Разметки почти нет, ресурсов и времени мало. Как бы вы строили pipeline?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Нужен каскад поиска кандидатов: редкое семплирование кадров, дешёвые эвристики и лёгкие модели для recall, сигналы из metadata/text, затем более сильная VLM/frame model или human review для кандидатов. Отдельно нужны валидация с учётом class imbalance, временная агрегация и разные thresholds под риск.

Полный разбор

Сначала нужно разделить product risk. “Safe inside mostly unsafe” и “unsafe inside mostly safe” - обе rare-event mining задачи, но цена false negative/false positive разная. Во втором случае риск часто выше: пользователь не ожидает unsafe content на safe-площадке.

На масштабе миллиардов видео нельзя гонять тяжелую VLM по каждому frame. Первый stage должен быть дешевым: decode с низким sample rate, low resolution, scene-change detection, person/object detectors, простые visual classifiers, OCR/text metadata, title/category signals. Цель первого stage - candidate generation, а не финальное решение.

Второй stage запускает более сильную frame/clip model или VLM на candidate windows, агрегирует frame scores во временные segments и отправляет uncertain/high-impact cases на human labeling. Active learning должен добирать borderline examples, rare categories и случаи disagreement между metadata и model.

Для launch нужен balanced validation set с realistic prevalence slices, temporal smoothing, minimum segment length, thresholds по product surface, drift monitoring и feedback loop из moderation/appeals. При высоком риске лучше стартовать консервативно и отдельно измерять precision/recall по source domain, region и content type.

Теория

Large-scale moderation - это cascade design: cheap recall-oriented mining, затем expensive precision-oriented verification и risk calibration.

Типичные ошибки

  • Предложить размечать каждый frame тяжелой VLM.
  • Игнорировать class imbalance и realistic validation prevalence.
  • Использовать один global threshold без учета product risk.
  • Забыть temporal aggregation и segment-level metrics.

Как отвечать на собеседовании

  • Начните с risk и class imbalance.
  • Опишите two-stage или three-stage cascade, затем labels и metrics.