Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations
作者: Jinghan Li, Yang Jin, Hao Jiang, Yadong Mu, Yang Song, Kun Xu
分类: cs.CV
发布日期: 2025-12-24
💡 一句话要点
提出NExT-Vid,一种基于下一帧预测的自回归视频建模框架,提升视觉表征学习效果。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自回归建模 视频预训练 下一帧预测 视觉表征学习 流匹配 上下文隔离 视频理解 生成模型
📋 核心要点
- 现有的视觉生成预训练方法大多采用BERT风格的掩码建模,忽略了视频分析中至关重要的时间信息。
- NExT-Vid通过掩码下一帧预测进行自回归建模,并设计上下文隔离的预测器和条件流匹配解码器,提升语义表征能力和生成质量。
- 实验表明,NExT-Vid在下游分类任务中,通过注意力探测,性能优于以往的生成预训练方法,验证了其有效性。
📝 摘要(中文)
本文提出NExT-Vid,一种新颖的自回归视觉生成预训练框架,利用掩码下一帧预测来联合建模图像和视频。NExT-Vid引入了上下文隔离的自回归预测器,以将语义表示与目标解码解耦,并引入了条件流匹配解码器,以增强生成质量和多样性。通过上下文隔离的流匹配预训练,该方法实现了强大的表征学习能力。在大型预训练模型上的大量实验表明,所提出的方法在下游分类任务中,通过注意力探测,始终优于以往的视觉表征生成预训练方法。
🔬 方法详解
问题定义:现有视觉生成预训练方法,特别是用于视频理解的方法,通常采用BERT风格的掩码建模,这种方法忽略了视频中重要的时序信息。虽然有一些自回归视觉预训练方法,但它们存在语义定位不准确和生成质量差的问题,导致语义信息不足。因此,如何有效地利用自回归建模进行视频表征学习是一个关键问题。
核心思路:NExT-Vid的核心思路是利用掩码下一帧预测任务进行自回归建模,从而学习到包含时序信息的视频表征。为了解决语义定位不准确和生成质量差的问题,NExT-Vid将语义表征与目标解码解耦,并使用条件流匹配来提高生成质量和多样性。
技术框架:NExT-Vid框架主要包含两个核心模块:上下文隔离的自回归预测器和条件流匹配解码器。首先,输入视频帧被掩码,然后通过上下文隔离的自回归预测器预测下一帧的表示。这个预测器旨在提取与目标解码无关的语义表示。接下来,条件流匹配解码器利用预测的表示生成下一帧图像。整个框架通过联合训练这两个模块,学习到高质量的视频表征。
关键创新:NExT-Vid的关键创新在于上下文隔离的自回归预测器和条件流匹配解码器的设计。上下文隔离的预测器通过解耦语义表示和目标解码,避免了语义信息的损失。条件流匹配解码器则通过学习数据分布的连续变换,提高了生成图像的质量和多样性。这种解耦和流匹配的方法是与现有自回归视觉预训练方法的主要区别。
关键设计:上下文隔离的自回归预测器可能采用Transformer结构,通过注意力机制捕捉帧之间的依赖关系。条件流匹配解码器可能基于连续归一化流(Continuous Normalizing Flows, CNF)实现,通过学习一个时间依赖的向量场,将噪声分布逐步变换为目标数据分布。损失函数可能包括预测损失(例如,像素级别的均方误差)和流匹配损失,用于优化预测器和解码器的参数。
🖼️ 关键图片
📊 实验亮点
论文通过在大型预训练模型上进行实验,证明了NExT-Vid的有效性。实验结果表明,NExT-Vid在下游分类任务中,通过注意力探测,性能始终优于以往的生成预训练方法。具体的性能数据和提升幅度在论文中给出,表明NExT-Vid能够学习到更有效的视频表征。
🎯 应用场景
NExT-Vid的潜在应用领域包括视频理解、视频生成、视频编辑、视频检索等。通过学习高质量的视频表征,NExT-Vid可以提升这些任务的性能。例如,在视频理解中,可以利用NExT-Vid提取的特征进行视频分类、动作识别等。在视频生成中,可以利用NExT-Vid生成高质量、多样化的视频内容。未来,NExT-Vid有望成为视频领域的基础模型,推动相关技术的发展。
📄 摘要(原文)
Recent advances in pretraining general foundation models have significantly improved performance across diverse downstream tasks. While autoregressive (AR) generative models like GPT have revolutionized NLP, most visual generative pretraining methods still rely on BERT-style masked modeling, which often disregards the temporal information essential for video analysis. The few existing autoregressive visual pretraining methods suffer from issues such as inaccurate semantic localization and poor generation quality, leading to poor semantics. In this work, we propose NExT-Vid, a novel autoregressive visual generative pretraining framework that utilizes masked next-frame prediction to jointly model images and videos. NExT-Vid introduces a context-isolated autoregressive predictor to decouple semantic representation from target decoding, and a conditioned flow-matching decoder to enhance generation quality and diversity. Through context-isolated flow-matching pretraining, our approach achieves strong representations. Extensive experiments on large-scale pretrained models demonstrate that our proposed method consistently outperforms previous generative pretraining methods for visual representation learning via attentive probing in downstream classification.