Video and audio generation: проблема не в одном красивом кадре
Image generation уже сложна, но video generation добавляет еще одну ось: время. Модель должна не только сделать каждый кадр красивым, но и сохранить мир между кадрами. У персонажа не должна “плавать” identity, предметы не должны исчезать, движение должно быть физически правдоподобным, камера не должна дергаться без причины, а prompt должен оставаться релевантным не один кадр, а весь ролик.
Поэтому video/audio generation надо изучать не как список моделей, а как набор failure modes и engineering constraints. Чем больше кадров, выше resolution, дольше duration и сложнее conditioning, тем сильнее растут compute, memory, latency, очередь and evaluation cost.
Failure taxonomy: что именно ломается в видео
| Failure mode | Как выглядит | Почему это трудно поймать одной метрикой |
|---|---|---|
| Flicker | Текстуры, свет или детали дрожат между кадрами. | Отдельные кадры могут быть красивыми, но sequence неприятна. |
| Identity drift | Лицо, одежда или объект постепенно меняются. | CLIP/text alignment может не заметить потерю идентичности. |
| Object permanence | Предмет исчезает, появляется или меняет форму без причины. | Нужна temporal/world consistency, не только per-frame quality. |
| Impossible motion | Движение выглядит физически странно или ломает анатомию. | FID/FVD плохо объясняют конкретную причину провала. |
| Prompt drift | Модель начинает с нужной сцены, но уходит от инструкции. | Prompt adherence надо проверять по timeline, а не одному thumbnail. |
| Audio-video mismatch | Звук не совпадает с действием, речью или событием. | Требует joint evaluation двух modalities. |
Как image diffusion превращается в video diffusion
Один распространенный путь: взять сильную image model и добавить temporal dimension. Stable Video Diffusion полезен как открытый пример: image pretraining, video pretraining, curated high-quality video fine-tuning. Главная идея не в названии модели, а в recipe: сначала учим сильное visual prior, потом учим движение и temporal coherence, потом аккуратно донастраиваем на качественные данные.
Другой важный угол - representation. Sora report формулирует идею spacetime patches: видео можно рассматривать как набор patches во времени и пространстве, где duration, aspect ratio and resolution могут различаться. Но Sora - не полный reproducible paper. Его стоит читать как frontier framing: какие свойства системы важны, а не как инструкцию “сделай так же”.
Audio generation: другая модальность, похожая логика
Audio тоже почти никогда не удобно генерировать напрямую как сырую waveform на большой длине. Поэтому появляются mel-spectrograms, audio latents, tokenizers, CLAP/T5-style conditioning and diffusion/transformer decoders. Здесь свои failure modes: шум, металлические artifacts, плохой rhythm, несоответствие prompt, voice identity leakage, audio-video desync.
| Модальность | Что сложно | Что обычно оценивают |
|---|---|---|
| Image | Prompt following, spatial relations, text rendering, artifacts. | Human preference, CLIP-like alignment, GenEval/TIFA-style compositional checks. |
| Video | Temporal consistency, identity, motion, object permanence. | VBench/FVD-like metrics plus human rubric by failure category. |
| Audio | Naturalness, timing, semantic alignment, music/speech structure. | Human listening tests, CLAP-like alignment, domain-specific audio metrics. |
| Audio-video | Sync between visible event and sound/speech. | Joint human eval and task-specific sync checks. |
Production case: Meta animate at scale
Meta Engineering post про animation at scale полезен именно как production story. Там задача не “сделать демо”, а обслужить feature под реальным traffic: latency, reliability, GPU availability and fallback behavior. Из такого кейса видно, почему research quality и product readiness различаются. В продакшне важны sampler steps, precision, distillation/few-step generation, routing, retries, moderation and cost caps.
Это хороший паттерн чтения любых GenAI launch posts: ищи не только красивый результат, а ответы на вопросы: сколько времени генерируется sample? что происходит при timeout? как измеряют temporal consistency? есть ли safety gate? как распределяют GPU? что делают с плохими outputs? какие fallback modes доступны пользователю?
Как говорить об этом на собеседовании
- Почему видео сложнее картинки? Потому что нужно моделировать temporal consistency and world state, а не только per-frame aesthetics.
- Почему image metrics недостаточно? Красивый кадр не гарантирует coherent motion, stable identity or prompt adherence over time.
- Как оценивать video model? Раздели frame quality, motion, temporal consistency, identity, prompt adherence, safety, latency and cost.
- Что оптимизировать для real-time feature? Few-step sampling, distillation, lower resolution/shorter duration, batching, queueing, caching/fallback, hardware-aware runtime.
- Как читать Sora-like reports? Используй vocabulary and framing, но не выдумывай undisclosed architecture details.
Иллюстрация, которая здесь лучше текста
Материалы
С чего начать
Production cases
Papers / reports
Open video diffusion paper useful for architecture and training/eval vocabulary.
Paper focused on coherent video generation through space-time modeling.
Audio-generation reference that transfers diffusion reasoning to another modality.