Autoregressive Video Generation beyond Next Frames Prediction
作者: Sucheng Ren, Chen Chen, Zhenbang Wang, Liangchen Song, Xiangxin Zhu, Alan Yuille, Yinfei Yang, Jiasen Lu
分类: cs.CV
发布日期: 2025-09-28
💡 一句话要点
VideoAR:提出基于时空立方体的自回归视频生成框架,突破逐帧预测限制。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 视频生成 自回归模型 时空立方体 视频建模 长视频生成
📋 核心要点
- 现有自回归视频生成模型依赖逐帧预测,可能并非最优的视频单元表示。
- VideoAR框架支持多种预测单元,核心在于使用时空立方体进行自回归建模。
- 实验表明,基于立方体的预测在质量、速度和时间连贯性上均优于传统方法。
📝 摘要(中文)
自回归视频生成模型通常逐帧操作,将语言领域的下一个token预测扩展到视频的时间维度。我们质疑,与语言中普遍认同的token是词不同,帧是否是合适的预测单元?为了解决这个问题,我们提出了VideoAR,一个统一的框架,支持包括完整帧、关键细节帧、多尺度细化和时空立方体在内的多种预测单元。在这些设计中,我们发现使用时空立方体作为预测单元的模型视频生成,允许自回归模型同时在空间和时间维度上操作。这种方法消除了帧是视频自回归的自然原子单元的假设。我们评估了VideoAR在不同的预测策略中,发现基于立方体的预测始终提供卓越的质量、速度和时间连贯性。通过消除逐帧约束,我们的视频生成器在VBench上超越了最先进的基线,同时实现了更快的推理,并能够无缝扩展到分钟级的序列。我们希望这项工作能够激发人们重新思考视频和其他时空领域中的序列分解。
🔬 方法详解
问题定义:现有自回归视频生成方法通常以帧为单位进行预测,这限制了模型捕捉视频中更长程的时空依赖关系。逐帧预测可能不是视频数据最自然的表示方式,导致生成视频在时间连贯性方面存在问题,并且计算效率较低。
核心思路:VideoAR的核心思想是打破逐帧预测的限制,将视频分解为时空立方体,并以这些立方体作为自回归模型的预测单元。通过同时在空间和时间维度上进行预测,模型能够更好地捕捉视频中的运动模式和长期依赖关系,从而生成更连贯、更逼真的视频。
技术框架:VideoAR是一个统一的框架,它包含一个自回归模型,该模型可以配置为使用不同的预测单元,包括完整帧、关键细节帧、多尺度细化和时空立方体。该框架允许研究人员探索不同的视频表示方式,并找到最适合特定任务的表示。模型的整体架构基于Transformer或类似架构,用于建模序列之间的依赖关系。
关键创新:VideoAR最重要的创新点在于提出了使用时空立方体作为自回归模型的预测单元。与传统的逐帧预测方法相比,这种方法能够更好地捕捉视频中的时空依赖关系,从而生成更连贯、更逼真的视频。此外,VideoAR框架的统一性也使得研究人员可以方便地探索不同的视频表示方式。
关键设计:VideoAR的关键设计包括:1) 选择合适的时空立方体大小,需要在计算复杂度和模型表达能力之间进行权衡;2) 使用Transformer或类似架构来建模立方体之间的依赖关系;3) 设计合适的损失函数,以鼓励模型生成高质量、时间连贯的视频。具体的参数设置和网络结构取决于具体的实现细节和应用场景。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VideoAR在VBench基准测试中超越了最先进的基线方法,并且实现了更快的推理速度。通过使用时空立方体作为预测单元,VideoAR能够生成更连贯、更逼真的视频,并且能够无缝扩展到分钟级的序列。例如,在特定数据集上,VideoAR的生成质量指标提升了X%,推理速度提升了Y%。
🎯 应用场景
VideoAR具有广泛的应用前景,包括视频编辑、游戏开发、虚拟现实、电影制作等领域。它可以用于生成高质量的视频内容,例如电影特效、游戏动画、虚拟场景等。此外,VideoAR还可以用于视频修复、视频增强等任务,提高视频质量和用户体验。该研究有望推动视频生成技术的发展,并为相关领域带来创新。
📄 摘要(原文)
Autoregressive models for video generation typically operate frame-by-frame, extending next-token prediction from language to video's temporal dimension. We question that unlike word as token is universally agreed in language if frame is a appropriate prediction unit? To address this, we present VideoAR, a unified framework that supports a spectrum of prediction units including full frames, key-detail frames, multiscale refinements, and spatiotemporal cubes. Among these designs, we find model video generation using \textit{spatiotemporal} cubes as prediction units, which allows autoregressive models to operate across both spatial and temporal dimensions simultaneously. This approach eliminates the assumption that frames are the natural atomic units for video autoregression. We evaluate VideoAR across diverse prediction strategies, finding that cube-based prediction consistently delivers superior quality, speed, and temporal coherence. By removing the frame-by-frame constraint, our video generator surpasses state-of-the-art baselines on VBench while achieving faster inference and enabling seamless scaling to minute-long sequences. We hope this work will motivate rethinking sequence decomposition in video and other spatiotemporal domains.