Обязательно

Video and Audio Generation

Text-to-video, image-to-video, temporal modeling, identity preservation, audio generation and modality-specific failure modes.

Время изучения: 40 мин

Video and audio generation: проблема не в одном красивом кадре

Image generation уже сложна, но video generation добавляет еще одну ось: время. Модель должна не только сделать каждый кадр красивым, но и сохранить мир между кадрами. У персонажа не должна “плавать” identity, предметы не должны исчезать, движение должно быть физически правдоподобным, камера не должна дергаться без причины, а prompt должен оставаться релевантным не один кадр, а весь ролик.

Поэтому video/audio generation надо изучать не как список моделей, а как набор failure modes и engineering constraints. Чем больше кадров, выше resolution, дольше duration и сложнее conditioning, тем сильнее растут compute, memory, latency, очередь and evaluation cost.

Failure taxonomy: что именно ломается в видео

Failure modeКак выглядитПочему это трудно поймать одной метрикой
FlickerТекстуры, свет или детали дрожат между кадрами.Отдельные кадры могут быть красивыми, но sequence неприятна.
Identity driftЛицо, одежда или объект постепенно меняются.CLIP/text alignment может не заметить потерю идентичности.
Object permanenceПредмет исчезает, появляется или меняет форму без причины.Нужна temporal/world consistency, не только per-frame quality.
Impossible motionДвижение выглядит физически странно или ломает анатомию.FID/FVD плохо объясняют конкретную причину провала.
Prompt driftМодель начинает с нужной сцены, но уходит от инструкции.Prompt adherence надо проверять по timeline, а не одному thumbnail.
Audio-video mismatchЗвук не совпадает с действием, речью или событием.Требует joint evaluation двух modalities.

Как image diffusion превращается в video diffusion

Один распространенный путь: взять сильную image model и добавить temporal dimension. Stable Video Diffusion полезен как открытый пример: image pretraining, video pretraining, curated high-quality video fine-tuning. Главная идея не в названии модели, а в recipe: сначала учим сильное visual prior, потом учим движение и temporal coherence, потом аккуратно донастраиваем на качественные данные.

Другой важный угол - representation. Sora report формулирует идею spacetime patches: видео можно рассматривать как набор patches во времени и пространстве, где duration, aspect ratio and resolution могут различаться. Но Sora - не полный reproducible paper. Его стоит читать как frontier framing: какие свойства системы важны, а не как инструкцию “сделай так же”.

Audio generation: другая модальность, похожая логика

Audio тоже почти никогда не удобно генерировать напрямую как сырую waveform на большой длине. Поэтому появляются mel-spectrograms, audio latents, tokenizers, CLAP/T5-style conditioning and diffusion/transformer decoders. Здесь свои failure modes: шум, металлические artifacts, плохой rhythm, несоответствие prompt, voice identity leakage, audio-video desync.

МодальностьЧто сложноЧто обычно оценивают
ImagePrompt following, spatial relations, text rendering, artifacts.Human preference, CLIP-like alignment, GenEval/TIFA-style compositional checks.
VideoTemporal consistency, identity, motion, object permanence.VBench/FVD-like metrics plus human rubric by failure category.
AudioNaturalness, timing, semantic alignment, music/speech structure.Human listening tests, CLAP-like alignment, domain-specific audio metrics.
Audio-videoSync between visible event and sound/speech.Joint human eval and task-specific sync checks.

Production case: Meta animate at scale

Meta Engineering post про animation at scale полезен именно как production story. Там задача не “сделать демо”, а обслужить feature под реальным traffic: latency, reliability, GPU availability and fallback behavior. Из такого кейса видно, почему research quality и product readiness различаются. В продакшне важны sampler steps, precision, distillation/few-step generation, routing, retries, moderation and cost caps.

Это хороший паттерн чтения любых GenAI launch posts: ищи не только красивый результат, а ответы на вопросы: сколько времени генерируется sample? что происходит при timeout? как измеряют temporal consistency? есть ли safety gate? как распределяют GPU? что делают с плохими outputs? какие fallback modes доступны пользователю?

Как говорить об этом на собеседовании

  • Почему видео сложнее картинки? Потому что нужно моделировать temporal consistency and world state, а не только per-frame aesthetics.
  • Почему image metrics недостаточно? Красивый кадр не гарантирует coherent motion, stable identity or prompt adherence over time.
  • Как оценивать video model? Раздели frame quality, motion, temporal consistency, identity, prompt adherence, safety, latency and cost.
  • Что оптимизировать для real-time feature? Few-step sampling, distillation, lower resolution/shorter duration, batching, queueing, caching/fallback, hardware-aware runtime.
  • Как читать Sora-like reports? Используй vocabulary and framing, но не выдумывай undisclosed architecture details.

Иллюстрация, которая здесь лучше текста

Storyboard timeline: prompt -> latent frames -> temporal module -> decoded frames -> eval. Под ним failure toggles: flicker, identity drift, object disappearance, audio desync. Студент должен видеть, что video quality - это не одна метрика.