Video and Audio Generation — Advanced ML Engineering

Video and audio generation: проблема не в одном красивом кадре

Image generation уже сложна, но video generation добавляет еще одну ось: время. Модель должна не только сделать каждый кадр красивым, но и сохранить мир между кадрами. У персонажа не должна “плавать” identity, предметы не должны исчезать, движение должно быть физически правдоподобным, камера не должна дергаться без причины, а prompt должен оставаться релевантным не один кадр, а весь ролик.

Поэтому video/audio generation надо изучать не как список моделей, а как набор failure modes и engineering constraints. Чем больше кадров, выше resolution, дольше duration и сложнее conditioning, тем сильнее растут compute, memory, latency, очередь and evaluation cost.

Failure taxonomy: что именно ломается в видео

Failure mode	Как выглядит	Почему это трудно поймать одной метрикой
Flicker	Текстуры, свет или детали дрожат между кадрами.	Отдельные кадры могут быть красивыми, но sequence неприятна.
Identity drift	Лицо, одежда или объект постепенно меняются.	CLIP/text alignment может не заметить потерю идентичности.
Object permanence	Предмет исчезает, появляется или меняет форму без причины.	Нужна temporal/world consistency, не только per-frame quality.
Impossible motion	Движение выглядит физически странно или ломает анатомию.	FID/FVD плохо объясняют конкретную причину провала.
Prompt drift	Модель начинает с нужной сцены, но уходит от инструкции.	Prompt adherence надо проверять по timeline, а не одному thumbnail.
Audio-video mismatch	Звук не совпадает с действием, речью или событием.	Требует joint evaluation двух modalities.

Как image diffusion превращается в video diffusion

Один распространенный путь: взять сильную image model и добавить temporal dimension. Stable Video Diffusion полезен как открытый пример: image pretraining, video pretraining, curated high-quality video fine-tuning. Главная идея не в названии модели, а в recipe: сначала учим сильное visual prior, потом учим движение и temporal coherence, потом аккуратно донастраиваем на качественные данные.

Другой важный угол - representation. Sora report формулирует идею spacetime patches: видео можно рассматривать как набор patches во времени и пространстве, где duration, aspect ratio and resolution могут различаться. Но Sora - не полный reproducible paper. Его стоит читать как frontier framing: какие свойства системы важны, а не как инструкцию “сделай так же”.

Audio generation: другая модальность, похожая логика

Audio тоже почти никогда не удобно генерировать напрямую как сырую waveform на большой длине. Поэтому появляются mel-spectrograms, audio latents, tokenizers, CLAP/T5-style conditioning and diffusion/transformer decoders. Здесь свои failure modes: шум, металлические artifacts, плохой rhythm, несоответствие prompt, voice identity leakage, audio-video desync.

Модальность	Что сложно	Что обычно оценивают
Image	Prompt following, spatial relations, text rendering, artifacts.	Human preference, CLIP-like alignment, GenEval/TIFA-style compositional checks.
Video	Temporal consistency, identity, motion, object permanence.	VBench/FVD-like metrics plus human rubric by failure category.
Audio	Naturalness, timing, semantic alignment, music/speech structure.	Human listening tests, CLAP-like alignment, domain-specific audio metrics.
Audio-video	Sync between visible event and sound/speech.	Joint human eval and task-specific sync checks.

Production case: Meta animate at scale

Meta Engineering post про animation at scale полезен именно как production story. Там задача не “сделать демо”, а обслужить feature под реальным traffic: latency, reliability, GPU availability and fallback behavior. Из такого кейса видно, почему research quality и product readiness различаются. В продакшне важны sampler steps, precision, distillation/few-step generation, routing, retries, moderation and cost caps.

Это хороший паттерн чтения любых GenAI launch posts: ищи не только красивый результат, а ответы на вопросы: сколько времени генерируется sample? что происходит при timeout? как измеряют temporal consistency? есть ли safety gate? как распределяют GPU? что делают с плохими outputs? какие fallback modes доступны пользователю?

Как говорить об этом на собеседовании

Почему видео сложнее картинки? Потому что нужно моделировать temporal consistency and world state, а не только per-frame aesthetics.
Почему image metrics недостаточно? Красивый кадр не гарантирует coherent motion, stable identity or prompt adherence over time.
Как оценивать video model? Раздели frame quality, motion, temporal consistency, identity, prompt adherence, safety, latency and cost.
Что оптимизировать для real-time feature? Few-step sampling, distillation, lower resolution/shorter duration, batching, queueing, caching/fallback, hardware-aware runtime.
Как читать Sora-like reports? Используй vocabulary and framing, но не выдумывай undisclosed architecture details.

Иллюстрация, которая здесь лучше текста

Storyboard timeline: prompt -> latent frames -> temporal module -> decoded frames -> eval. Под ним failure toggles: flicker, identity drift, object disappearance, audio desync. Студент должен видеть, что video quality - это не одна метрика.

Материалы

С чего начать

Hugging Face Diffusion Course

Accessible starting point for diffusion vocabulary before video/audio papers.

mustbaseen

Production cases

Meta Engineering: How Meta Animates AI-generated Images at Scale

Production case for accelerating animation/video diffusion under real traffic constraints.

mustadven

Let's Enhance + NVIDIA: Serving Stable Diffusion XL

Concrete diffusion serving stack with Triton/TensorRT context.

recmiden

Papers / reports

Stable Video Diffusion

Open video diffusion paper useful for architecture and training/eval vocabulary.

mustadven

Lumiere: A Space-Time Diffusion Model for Video Generation

Paper focused on coherent video generation through space-time modeling.

recadven

AudioLDM: Text-to-Audio Generation with Latent Diffusion Models

Audio-generation reference that transfers diffusion reasoning to another modality.

recmiden

Reference

OpenAI Sora Technical Report

Frontier report with useful framing and explicit limitations; not a full reproducible recipe.

recadven

Sora 2 System Card

Safety/evaluation reference for modern video+audio generation systems.

optadven