Как применять Vision Transformer к последовательности изображений
Vision Transformer обычно работает с 2D image patches. Как перенести такой подход на дорожные video segments?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Есть три уровня: кодировать кадры отдельно и агрегировать, добавить temporal tokens/positional encoding или использовать video transformer на подвыборке кадров. Выбор ограничивает compute.
Полный разбор
Самый дешевый путь - применять image ViT к каждому выбранному кадру, брать CLS или pooled embedding и потом агрегировать кадры отдельным temporal layer. Такой вариант проще индексировать и масштабировать на большой архив.
Более связанный вариант добавляет temporal positional encoding и attention между кадрами. Модель видит, что объект появился, пересек дорогу и исчез, а не просто набор похожих картинок. Полный video transformer обрабатывает spatio-temporal tokens, но он быстро становится дорогим по памяти и времени, особенно если архив огромный.
Для retrieval production обычно начинают с экономного stage: sparse frame sampling, cached frame embeddings, segment aggregation и ANN index. Дорогие video transformer или cross-attention модели оставляют для reranking top-K или для offline reindexing критичных срезов.
Теория
Video ViT усиливает temporal понимание, но retrieval pipeline обязан укладываться в стоимость индексации и latency. Поэтому тяжелая модель редко становится первым candidate generator.