Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation

作者: Min Zhao, Hongzhou Zhu, Kaiwen Zheng, Zihan Zhou, Bokai Yan, Xinyuan Li, Xiao Yang, Chongxuan Li, Jun Zhu

分类: cs.CV

发布日期: 2026-05-14

🔗 代码/项目: GITHUB | GITHUB

💡 一句话要点

提出Causal Forcing++，实现帧级2步自回归扩散蒸馏，加速交互式视频生成。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视频生成 扩散模型 自回归模型 蒸馏训练 实时交互 因果一致性 世界模型

📋 核心要点

现有自回归扩散蒸馏方法在块级4步采样中表现出色，但响应粒度粗糙，采样延迟不可忽略，难以满足实时交互需求。
Causal Forcing++通过因果一致性蒸馏（causal CD）进行少步自回归初始化，避免了预计算和存储完整轨迹，提高了效率和优化难度。
实验表明，Causal Forcing++在帧级2步设置下显著优于现有方法，降低了延迟和训练成本，并可扩展到动作条件世界模型生成。

📝 摘要（中文）

本文研究了更激进的设置：仅用1-2步采样进行帧级自回归视频生成。研究发现，少步自回归学生模型的初始化是关键瓶颈，现有策略要么目标不一致，要么无法进行少步生成，要么扩展成本过高。为此，本文提出了Causal Forcing++，一个原则性和可扩展的流程，它使用因果一致性蒸馏（causal CD）进行少步自回归初始化。核心思想是，因果CD学习与因果ODE蒸馏相同的自回归条件流映射，但从相邻时间步之间的单个在线教师ODE步骤获得监督，避免了预先计算和存储完整PF-ODE轨迹的需要。这使得初始化更有效且更易于优化。实验表明，在帧级2步设置下，Causal Forcing++超越了SOTA的4步块级Causal Forcing，VBench Total提升0.1，VBench Quality提升0.3，VisionReward提升0.335，同时首帧延迟降低50％，Stage 2训练成本降低约4倍。该流程还可扩展到Genie3风格的动作条件世界模型生成。

🔬 方法详解

问题定义：论文旨在解决实时交互式视频生成中，现有自回归扩散蒸馏方法存在的延迟高、响应粒度粗糙的问题。现有方法通常采用块级（chunk-wise）的4步采样，无法满足实时性要求。此外，少步自回归模型的初始化也是一个难题，现有策略要么与目标不一致，要么无法进行少步生成，要么计算成本过高，难以扩展。

核心思路：论文的核心思路是利用因果一致性蒸馏（causal CD）来初始化少步自回归学生模型。Causal CD通过学习与因果ODE蒸馏相同的自回归条件流映射，并从相邻时间步之间的单个在线教师ODE步骤获得监督，避免了预计算和存储完整PF-ODE轨迹的需要。这种方法既能保证初始化与目标一致，又能降低计算成本，提高优化效率。

技术框架：Causal Forcing++的整体流程包括以下几个阶段：首先，训练一个双向扩散模型作为教师模型。然后，使用因果一致性蒸馏（causal CD）初始化一个少步自回归学生模型。在训练过程中，学生模型通过模仿教师模型在相邻时间步之间的单个ODE步骤来学习条件流映射。最后，对学生模型进行微调，以进一步提高生成质量。

关键创新：最重要的技术创新点是因果一致性蒸馏（causal CD）。与传统的ODE蒸馏方法相比，Causal CD不需要预先计算和存储完整的PF-ODE轨迹，而是通过在线模仿教师模型在相邻时间步之间的单个ODE步骤来学习条件流映射。这种方法大大降低了计算成本，提高了训练效率，并且更容易优化。

关键设计：Causal CD的关键设计在于损失函数的设计。损失函数旨在使学生模型在给定前一帧的情况下，生成的当前帧与教师模型在相邻时间步之间的单个ODE步骤的输出尽可能接近。具体来说，可以使用L2损失或感知损失来衡量学生模型和教师模型输出之间的差异。此外，还可以使用正则化项来约束学生模型的输出，以避免过拟合。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Causal Forcing++在帧级2步设置下，VBench Total指标提升0.1，VBench Quality指标提升0.3，VisionReward指标提升0.335，同时首帧延迟降低50％，Stage 2训练成本降低约4倍。这些结果表明，Causal Forcing++在实时性和生成质量方面都取得了显著的提升，超越了现有的SOTA方法。

🎯 应用场景

该研究成果可广泛应用于需要实时交互式视频生成的领域，例如虚拟现实、游戏、视频编辑、远程协作等。通过降低生成延迟和提高响应速度，可以为用户提供更流畅、更自然的交互体验。此外，该方法还可以应用于动作条件世界模型的生成，为机器人和智能体提供更逼真的环境模拟。

📄 摘要（原文）

Real-time interactive video generation requires low-latency, streaming, and controllable rollout. Existing autoregressive (AR) diffusion distillation methods have achieved strong results in the chunk-wise 4-step regime by distilling bidirectional base models into few-step AR students, but they remain limited by coarse response granularity and non-negligible sampling latency. In this paper, we study a more aggressive setting: frame-wise autoregression with only 1--2 sampling steps. In this regime, we identify the initialization of a few-step AR student as the key bottleneck: existing strategies are either target-misaligned, incapable of few-step generation, or too costly to scale. We propose \textbf{Causal Forcing++}, a principled and scalable pipeline that uses \emph{causal consistency distillation} (causal CD) for few-step AR initialization. The core idea is that causal CD learns the same AR-conditional flow map as causal ODE distillation, but obtains supervision from a single online teacher ODE step between adjacent timesteps, avoiding the need to precompute and store full PF-ODE trajectories. This makes the initialization both more efficient and easier to optimize. The resulting pipeline, \ours, surpasses the SOTA 4-step chunk-wise Causal Forcing under the \textit{\textbf{frame-wise 2-step setting}} by 0.1 in VBench Total, 0.3 in VBench Quality, and 0.335 in VisionReward, while reducing first-frame latency by 50\% and Stage 2 training cost by $\sim$$4\times$. We further extend the pipeline to action-conditioned world model generation in the spirit of Genie3. Project Page: https://github.com/thu-ml/Causal-Forcing and https://github.com/shengshu-ai/minWM .

Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理