Как применять Vision Transformer к последовательности изображений

Vision Transformer обычно работает с 2D image patches. Как перенести такой подход на дорожные video segments?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Есть три уровня: кодировать кадры отдельно и агрегировать, добавить temporal tokens/positional encoding или использовать video transformer на подвыборке кадров. Выбор ограничивает compute.

Полный разбор

Самый дешевый путь - применять image ViT к каждому выбранному кадру, брать CLS или pooled embedding и потом агрегировать кадры отдельным temporal layer. Такой вариант проще индексировать и масштабировать на большой архив. Более связанный вариант добавляет temporal positional encoding и attention между кадрами. Модель видит, что объект появился, пересек дорогу и исчез, а не просто набор похожих картинок. Полный video transformer обрабатывает spatio-temporal tokens, но он быстро становится дорогим по памяти и времени, особенно если архив огромный. Для retrieval production обычно начинают с экономного stage: sparse frame sampling, cached frame embeddings, segment aggregation и ANN index. Дорогие video transformer или cross-attention модели оставляют для reranking top-K или для offline reindexing критичных срезов.

Video ViT усиливает temporal понимание, но retrieval pipeline обязан укладываться в стоимость индексации и latency. Поэтому тяжелая модель редко становится первым candidate generator.