Demystifing Video Reasoning
作者: Ruisi Wang, Zhongang Cai, Fanyi Pu, Junxiang Xu, Wanqi Yin, Maijunxian Wang, Ran Ji, Chenyang Gu, Bo Li, Ziqi Huang, Hokin Deng, Dahua Lin, Ziwei Liu, Lei Yang
分类: cs.CV, cs.AI
发布日期: 2026-03-17
备注: Homepage: https://www.wruisi.com/demystifying_video_reasoning
💡 一句话要点
揭示视频生成模型中的推理机制:扩散去噪过程而非帧序列是关键
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 视频生成 扩散模型 推理机制 步骤链 Transformer 工作记忆 自我纠正 行动前感知
📋 核心要点
- 现有研究认为视频生成模型中的推理能力源于帧序列,但该观点缺乏充分验证。
- 该论文提出“步骤链”(CoS)机制,认为推理主要发生在扩散去噪步骤中,而非帧序列。
- 通过实验,论文揭示了工作记忆、自我纠正和行动前感知等涌现推理行为,并提出了免训练的推理改进策略。
📝 摘要(中文)
视频生成领域的最新进展表明,基于扩散的模型展现出非凡的推理能力。以往的研究认为这归功于帧链(CoF)机制,即推理在视频帧序列中展开。本文挑战了这一假设,揭示了一种根本不同的机制。研究表明,视频模型中的推理主要出现在扩散去噪步骤中,而非帧序列。通过定性分析和有针对性的探测实验,我们发现模型在早期去噪步骤中探索多个候选解决方案,并逐步收敛到最终答案,这一过程我们称之为步骤链(CoS)。除了这一核心机制,我们还发现了对模型性能至关重要的几种涌现推理行为:(1)工作记忆,实现持久参考;(2)自我纠正和增强,允许从不正确的中间解决方案中恢复;(3)行动前的感知,早期步骤建立语义基础,后期步骤执行结构化操作。在扩散步骤中,我们进一步发现扩散Transformer内部存在自我演化的功能专业化,其中早期层编码密集感知结构,中间层执行推理,后期层巩固潜在表示。受这些见解的启发,我们提出了一种简单的免训练策略作为概念验证,展示了如何通过集成来自具有不同随机种子的相同模型的潜在轨迹来改进推理。总的来说,我们的工作系统地理解了推理如何在视频生成模型中涌现,为指导未来研究更好地利用视频模型固有的推理动态作为一种新的智能基质奠定了基础。
🔬 方法详解
问题定义:现有研究主要关注视频生成模型在帧序列上的推理能力,认为推理是逐帧进行的。然而,这种“帧链”(Chain-of-Frames, CoF)的假设缺乏深入的验证,并且可能忽略了扩散模型在去噪过程中蕴含的推理能力。因此,该论文旨在揭示视频生成模型中推理的真正来源和机制,并探索如何更好地利用这些机制来提升模型的推理性能。
核心思路:该论文的核心思路是挑战传统的CoF假设,并提出“步骤链”(Chain-of-Steps, CoS)机制。作者认为,视频生成模型中的推理并非主要发生在帧序列上,而是在扩散模型的去噪步骤中逐步演进的。模型在早期去噪步骤中探索多种可能的解决方案,然后逐步收敛到最终答案。这种思路强调了扩散模型在潜在空间中进行推理的能力,而非仅仅依赖于帧之间的依赖关系。
技术框架:该论文主要通过定性分析和有针对性的探测实验来研究视频生成模型中的推理机制。具体来说,作者首先通过可视化和分析扩散模型的去噪过程,观察模型在不同去噪步骤中的行为。然后,设计了一系列探测实验,例如修改中间去噪步骤的潜在表示,来验证CoS机制和各种涌现推理行为(如工作记忆、自我纠正和行动前感知)。此外,作者还分析了扩散Transformer内部不同层的功能专业化。最后,基于这些发现,作者提出了一个简单的免训练策略,通过集成来自不同随机种子的模型的潜在轨迹来改进推理。
关键创新:该论文最重要的技术创新点在于提出了CoS机制,并揭示了视频生成模型中推理的主要来源是扩散去噪步骤。与传统的CoF假设不同,CoS机制强调了模型在潜在空间中进行推理的能力,而非仅仅依赖于帧之间的依赖关系。此外,该论文还发现了工作记忆、自我纠正和行动前感知等涌现推理行为,并分析了扩散Transformer内部不同层的功能专业化。
关键设计:论文的关键设计包括:1) 设计了针对性的探测实验,通过修改中间去噪步骤的潜在表示来验证CoS机制和各种涌现推理行为;2) 分析了扩散Transformer内部不同层的功能专业化,发现早期层编码感知结构,中间层执行推理,后期层巩固潜在表示;3) 提出了一个简单的免训练策略,通过集成来自不同随机种子的模型的潜在轨迹来改进推理。具体的技术细节包括如何设计探测实验、如何分析Transformer的层结构以及如何实现潜在轨迹的集成。
📊 实验亮点
该研究通过实验验证了CoS机制的有效性,并揭示了视频生成模型中的多种涌现推理行为。例如,通过修改中间去噪步骤的潜在表示,可以观察到模型具有自我纠正的能力。此外,通过集成来自不同随机种子的模型的潜在轨迹,可以显著提升模型的推理性能。具体的性能数据和提升幅度在论文中进行了详细的展示。
🎯 应用场景
该研究成果可应用于视频生成、视频编辑、视频理解等领域。通过深入理解视频模型中的推理机制,可以开发出更智能、更可控的视频生成和编辑工具。此外,该研究还有助于提升视频理解模型的性能,使其能够更好地理解视频内容和事件之间的关系。未来,该研究有望推动人工智能在视频领域的更广泛应用。
📄 摘要(原文)
Recent advances in video generation have revealed an unexpected phenomenon: diffusion-based video models exhibit non-trivial reasoning capabilities. Prior work attributes this to a Chain-of-Frames (CoF) mechanism, where reasoning is assumed to unfold sequentially across video frames. In this work, we challenge this assumption and uncover a fundamentally different mechanism. We show that reasoning in video models instead primarily emerges along the diffusion denoising steps. Through qualitative analysis and targeted probing experiments, we find that models explore multiple candidate solutions in early denoising steps and progressively converge to a final answer, a process we term Chain-of-Steps (CoS). Beyond this core mechanism, we identify several emergent reasoning behaviors critical to model performance: (1) working memory, enabling persistent reference; (2) self-correction and enhancement, allowing recovery from incorrect intermediate solutions; and (3) perception before action, where early steps establish semantic grounding and later steps perform structured manipulation. During a diffusion step, we further uncover self-evolved functional specialization within Diffusion Transformers, where early layers encode dense perceptual structure, middle layers execute reasoning, and later layers consolidate latent representations. Motivated by these insights, we present a simple training-free strategy as a proof-of-concept, demonstrating how reasoning can be improved by ensembling latent trajectories from identical models with different random seeds. Overall, our work provides a systematic understanding of how reasoning emerges in video generation models, offering a foundation to guide future research in better exploiting the inherent reasoning dynamics of video models as a new substrate for intelligence.