Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation

📄 arXiv: 2602.02214v1 📥 PDF

作者: Hongzhou Zhu, Min Zhao, Guande He, Hang Su, Chongxuan Li, Jun Zhu

分类: cs.CV

发布日期: 2026-02-02

备注: Project page and the code: \href{https://thu-ml.github.io/CausalForcing.github.io/}{https://thu-ml.github.io/CausalForcing.github.io/}

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

Causal Forcing:通过自回归扩散蒸馏实现高质量实时交互视频生成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频生成 扩散模型 自回归模型 蒸馏训练 实时交互 因果推理 ODE蒸馏

📋 核心要点

  1. 现有方法在将双向扩散模型蒸馏为自回归模型时,由于注意力机制的差异,存在架构鸿沟,导致性能下降。
  2. Causal Forcing 提出使用自回归教师模型进行ODE初始化,从而弥合双向模型和自回归模型之间的架构差距。
  3. 实验结果表明,该方法在动态度、视觉奖励和指令遵循等指标上显著优于现有方法,实现了更好的性能。

📝 摘要(中文)

为了实现实时交互视频生成,目前的方法将预训练的双向视频扩散模型蒸馏成少步自回归(AR)模型,但当全注意力被因果注意力取代时,面临着架构上的差距。然而,现有的方法在理论上并没有弥合这一差距。它们通过ODE蒸馏初始化AR学生模型,这需要帧级别的单射性,即每个噪声帧必须在AR教师模型的PF-ODE下映射到唯一的干净帧。从双向教师模型中蒸馏AR学生模型违反了这一条件,阻碍了教师模型流图的恢复,反而诱导出一个条件期望解,从而降低了性能。为了解决这个问题,我们提出了Causal Forcing,它使用AR教师模型进行ODE初始化,从而弥合了架构上的差距。实验结果表明,我们的方法在所有指标上都优于所有基线,在动态度上超过了SOTA Self Forcing 19.3%,在VisionReward上超过了8.7%,在指令遵循上超过了16.7%。

🔬 方法详解

问题定义:现有方法在将预训练的双向视频扩散模型蒸馏成自回归模型时,面临着一个关键问题:双向模型和自回归模型在架构上存在差异,特别是注意力机制的不同(全注意力 vs. 因果注意力)。直接进行蒸馏会导致性能下降,因为现有的方法无法有效地弥合这种架构上的差距。现有方法依赖于ODE蒸馏,要求帧级别的单射性,这在从双向教师模型蒸馏自回归学生模型时无法满足,导致性能退化。

核心思路:Causal Forcing 的核心思路是使用一个自回归的教师模型来进行ODE初始化,从而避免了双向模型和自回归模型之间的架构不匹配问题。通过使用自回归教师模型,可以保证ODE蒸馏过程中的帧级别单射性条件,从而更有效地将知识从教师模型转移到学生模型。这种方法能够更好地恢复教师模型的流图,避免产生条件期望解,从而提高生成视频的质量。

技术框架:Causal Forcing 的整体框架包括以下几个主要步骤:首先,训练一个自回归的视频扩散模型作为教师模型。然后,使用该自回归教师模型进行ODE蒸馏,初始化一个少步自回归的学生模型。在蒸馏过程中,Causal Forcing 确保满足帧级别的单射性条件,从而避免性能下降。最后,对学生模型进行微调,以进一步提高生成视频的质量。

关键创新:Causal Forcing 最重要的技术创新点在于使用自回归教师模型进行ODE初始化,从而解决了双向模型和自回归模型之间架构不匹配的问题。与现有方法不同,Causal Forcing 在理论上弥合了这种架构差距,并保证了ODE蒸馏过程中的帧级别单射性条件。这种方法能够更有效地将知识从教师模型转移到学生模型,从而提高生成视频的质量。

关键设计:Causal Forcing 的关键设计包括:选择合适的自回归视频扩散模型作为教师模型;设计有效的ODE蒸馏策略,以确保帧级别的单射性条件;以及对学生模型进行微调,以进一步提高生成视频的质量。具体的参数设置、损失函数和网络结构等技术细节需要根据具体的应用场景进行调整和优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Causal Forcing 在多个指标上显著优于现有方法。在动态度(Dynamic Degree)上,Causal Forcing 超过了 SOTA Self Forcing 19.3%;在视觉奖励(VisionReward)上,超过了 8.7%;在指令遵循(Instruction Following)上,超过了 16.7%。这些实验结果表明,Causal Forcing 能够更有效地生成高质量、符合指令的实时交互视频。

🎯 应用场景

Causal Forcing 在实时交互视频生成领域具有广泛的应用前景,例如虚拟现实、游戏、视频会议、在线教育等。该技术可以用于生成高质量、低延迟的交互式视频内容,提升用户体验。此外,该技术还可以应用于视频编辑、视频修复等领域,提高视频处理的效率和质量。未来,Causal Forcing 有望成为实时视频生成领域的重要技术之一。

📄 摘要(原文)

To achieve real-time interactive video generation, current methods distill pretrained bidirectional video diffusion models into few-step autoregressive (AR) models, facing an architectural gap when full attention is replaced by causal attention. However, existing approaches do not bridge this gap theoretically. They initialize the AR student via ODE distillation, which requires frame-level injectivity, where each noisy frame must map to a unique clean frame under the PF-ODE of an AR teacher. Distilling an AR student from a bidirectional teacher violates this condition, preventing recovery of the teacher's flow map and instead inducing a conditional-expectation solution, which degrades performance. To address this issue, we propose Causal Forcing that uses an AR teacher for ODE initialization, thereby bridging the architectural gap. Empirical results show that our method outperforms all baselines across all metrics, surpassing the SOTA Self Forcing by 19.3\% in Dynamic Degree, 8.7\% in VisionReward, and 16.7\% in Instruction Following. Project page and the code: \href{https://thu-ml.github.io/CausalForcing.github.io/}{https://thu-ml.github.io/CausalForcing.github.io/}