Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation

📄 arXiv: 2605.15141v1 📥 PDF

作者: Min Zhao, Hongzhou Zhu, Kaiwen Zheng, Zihan Zhou, Bokai Yan, Xinyuan Li, Xiao Yang, Chongxuan Li, Jun Zhu

分类: cs.CV

发布日期: 2026-05-14

🔗 代码/项目: GITHUB | GITHUB


💡 一句话要点

提出Causal Forcing++,实现帧级2步自回归扩散蒸馏,加速交互式视频生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频生成 扩散模型 自回归模型 蒸馏训练 实时交互 因果一致性 世界模型

📋 核心要点

  1. 现有自回归扩散蒸馏方法在块级4步采样中表现出色,但响应粒度粗糙,采样延迟不可忽略,难以满足实时交互需求。
  2. Causal Forcing++通过因果一致性蒸馏(causal CD)进行少步自回归初始化,避免了预计算和存储完整轨迹,提高了效率和优化难度。
  3. 实验表明,Causal Forcing++在帧级2步设置下显著优于现有方法,降低了延迟和训练成本,并可扩展到动作条件世界模型生成。

📝 摘要(中文)

本文研究了更激进的设置:仅用1-2步采样进行帧级自回归视频生成。研究发现,少步自回归学生模型的初始化是关键瓶颈,现有策略要么目标不一致,要么无法进行少步生成,要么扩展成本过高。为此,本文提出了Causal Forcing++,一个原则性和可扩展的流程,它使用因果一致性蒸馏(causal CD)进行少步自回归初始化。核心思想是,因果CD学习与因果ODE蒸馏相同的自回归条件流映射,但从相邻时间步之间的单个在线教师ODE步骤获得监督,避免了预先计算和存储完整PF-ODE轨迹的需要。这使得初始化更有效且更易于优化。实验表明,在帧级2步设置下,Causal Forcing++超越了SOTA的4步块级Causal Forcing,VBench Total提升0.1,VBench Quality提升0.3,VisionReward提升0.335,同时首帧延迟降低50%,Stage 2训练成本降低约4倍。该流程还可扩展到Genie3风格的动作条件世界模型生成。

🔬 方法详解

问题定义:论文旨在解决实时交互式视频生成中,现有自回归扩散蒸馏方法存在的延迟高、响应粒度粗糙的问题。现有方法通常采用块级(chunk-wise)的4步采样,无法满足实时性要求。此外,少步自回归模型的初始化也是一个难题,现有策略要么与目标不一致,要么无法进行少步生成,要么计算成本过高,难以扩展。

核心思路:论文的核心思路是利用因果一致性蒸馏(causal CD)来初始化少步自回归学生模型。Causal CD通过学习与因果ODE蒸馏相同的自回归条件流映射,并从相邻时间步之间的单个在线教师ODE步骤获得监督,避免了预计算和存储完整PF-ODE轨迹的需要。这种方法既能保证初始化与目标一致,又能降低计算成本,提高优化效率。

技术框架:Causal Forcing++的整体流程包括以下几个阶段:首先,训练一个双向扩散模型作为教师模型。然后,使用因果一致性蒸馏(causal CD)初始化一个少步自回归学生模型。在训练过程中,学生模型通过模仿教师模型在相邻时间步之间的单个ODE步骤来学习条件流映射。最后,对学生模型进行微调,以进一步提高生成质量。

关键创新:最重要的技术创新点是因果一致性蒸馏(causal CD)。与传统的ODE蒸馏方法相比,Causal CD不需要预先计算和存储完整的PF-ODE轨迹,而是通过在线模仿教师模型在相邻时间步之间的单个ODE步骤来学习条件流映射。这种方法大大降低了计算成本,提高了训练效率,并且更容易优化。

关键设计:Causal CD的关键设计在于损失函数的设计。损失函数旨在使学生模型在给定前一帧的情况下,生成的当前帧与教师模型在相邻时间步之间的单个ODE步骤的输出尽可能接近。具体来说,可以使用L2损失或感知损失来衡量学生模型和教师模型输出之间的差异。此外,还可以使用正则化项来约束学生模型的输出,以避免过拟合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Causal Forcing++在帧级2步设置下,VBench Total指标提升0.1,VBench Quality指标提升0.3,VisionReward指标提升0.335,同时首帧延迟降低50%,Stage 2训练成本降低约4倍。这些结果表明,Causal Forcing++在实时性和生成质量方面都取得了显著的提升,超越了现有的SOTA方法。

🎯 应用场景

该研究成果可广泛应用于需要实时交互式视频生成的领域,例如虚拟现实、游戏、视频编辑、远程协作等。通过降低生成延迟和提高响应速度,可以为用户提供更流畅、更自然的交互体验。此外,该方法还可以应用于动作条件世界模型的生成,为机器人和智能体提供更逼真的环境模拟。

📄 摘要(原文)

Real-time interactive video generation requires low-latency, streaming, and controllable rollout. Existing autoregressive (AR) diffusion distillation methods have achieved strong results in the chunk-wise 4-step regime by distilling bidirectional base models into few-step AR students, but they remain limited by coarse response granularity and non-negligible sampling latency. In this paper, we study a more aggressive setting: frame-wise autoregression with only 1--2 sampling steps. In this regime, we identify the initialization of a few-step AR student as the key bottleneck: existing strategies are either target-misaligned, incapable of few-step generation, or too costly to scale. We propose \textbf{Causal Forcing++}, a principled and scalable pipeline that uses \emph{causal consistency distillation} (causal CD) for few-step AR initialization. The core idea is that causal CD learns the same AR-conditional flow map as causal ODE distillation, but obtains supervision from a single online teacher ODE step between adjacent timesteps, avoiding the need to precompute and store full PF-ODE trajectories. This makes the initialization both more efficient and easier to optimize. The resulting pipeline, \ours, surpasses the SOTA 4-step chunk-wise Causal Forcing under the \textit{\textbf{frame-wise 2-step setting}} by 0.1 in VBench Total, 0.3 in VBench Quality, and 0.335 in VisionReward, while reducing first-frame latency by 50\% and Stage 2 training cost by $\sim$$4\times$. We further extend the pipeline to action-conditioned world model generation in the spirit of Genie3. Project Page: https://github.com/thu-ml/Causal-Forcing and https://github.com/shengshu-ai/minWM .