Sparse Forcing: Native Trainable Sparse Attention for Real-time Autoregressive Diffusion Video Generation

作者: Boxun Xu, Yuming Du, Zichang Liu, Siyu Yang, Ziyang Jiang, Siqi Yan, Rajasi Saha, Albert Pumarola, Wenchen Wang, Peng Li

分类: cs.CV, cs.LG

发布日期: 2026-04-23

💡 一句话要点

提出Sparse Forcing，加速自回归扩散视频生成，提升长时序生成质量。

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: 自回归模型 视频生成 扩散模型 稀疏注意力 长时序建模

📋 核心要点

自回归视频扩散模型在长时序生成中面临计算成本高、生成质量下降的挑战。
Sparse Forcing通过学习压缩和保留显著视觉块，并限制局部窗口内的计算，实现高效稀疏注意力。
实验表明，Sparse Forcing在加速解码的同时，显著提升了长时序视频生成的视觉质量。

📝 摘要（中文）

本文提出Sparse Forcing，一种用于自回归视频扩散模型的训练和推理范式，旨在提高长时程生成质量并降低解码延迟。Sparse Forcing的动机源于自回归扩散展开中的一个经验观察：注意力集中在显著视觉块的持久子集上，在KV缓存中形成隐式的时空记忆，并在滑动窗口内呈现局部结构化的块稀疏模式。基于此，我们提出了一种可训练的本地稀疏机制，该机制学习压缩、保存和更新这些持久块，同时将每个本地窗口内的计算限制在动态选择的本地邻域内。为了使该方法在训练和推理中具有可扩展性，我们进一步提出了Persistent Block-Sparse Attention (PBSA)，这是一种高效的GPU内核，可加速稀疏注意力和内存更新，从而实现低延迟、内存高效的解码。实验表明，在5秒文本到视频生成中，Sparse Forcing的VBench得分比Self-Forcing提高了+0.26，同时提供了1.11-1.17倍的解码加速和42%的峰值KV缓存占用降低。在更长的时程展开中，收益更加明显，在20秒和1分钟的生成中，视觉质量分别提高了+0.68和+2.74 VBench，速度分别提高了1.22倍和1.27倍。

🔬 方法详解

问题定义：现有的自回归视频扩散模型在生成长时序视频时，计算复杂度高，解码速度慢，并且由于误差累积，生成质量会显著下降。尤其是在注意力机制中，需要对所有像素进行计算，计算量巨大。

核心思路：论文的核心思路是利用视频帧中存在冗余信息的特性，通过稀疏化注意力机制，只关注重要的视觉块，从而减少计算量，提高解码速度，并改善长时序生成质量。作者观察到注意力集中在少数显著的视觉块上，这些块在时间上具有持久性，因此可以通过学习来压缩和保留这些块。

技术框架：Sparse Forcing包含训练和推理两个阶段。在训练阶段，模型学习如何选择和保留重要的视觉块。在推理阶段，模型利用学习到的稀疏模式进行高效的解码。Persistent Block-Sparse Attention (PBSA) 是一个关键组件，它是一个高效的GPU内核，用于加速稀疏注意力和内存更新。整体流程包括：输入视频帧，通过可训练的稀疏机制选择重要视觉块，使用PBSA进行稀疏注意力计算，更新KV缓存，生成下一帧。

关键创新：最重要的技术创新点是可训练的本地稀疏机制和Persistent Block-Sparse Attention (PBSA)。可训练的稀疏机制能够动态地选择重要的视觉块，而PBSA则能够高效地执行稀疏注意力计算和内存更新。与现有方法的本质区别在于，Sparse Forcing不是对所有像素进行计算，而是只关注重要的视觉块，从而大大减少了计算量。

关键设计：关键设计包括：1. 使用滑动窗口来限制局部计算范围；2. 设计损失函数来鼓励模型选择重要的视觉块；3. 使用高效的GPU内核PBSA来加速稀疏注意力计算和内存更新。具体参数设置和网络结构细节在论文中未详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

Sparse Forcing在5秒文本到视频生成中，VBench得分比Self-Forcing提高了+0.26，同时解码速度提高了1.11-1.17倍，峰值KV缓存占用降低了42%。在20秒和1分钟的生成中，视觉质量分别提高了+0.68和+2.74 VBench，速度分别提高了1.22倍和1.27倍。这些结果表明，Sparse Forcing能够显著提高长时序视频生成的质量和效率。

🎯 应用场景

Sparse Forcing可应用于各种需要生成长时序视频的场景，例如文本到视频生成、视频编辑、视频修复等。该方法能够显著提高生成速度和质量，降低计算成本，具有广泛的应用前景。未来可以进一步探索其在交互式视频生成、虚拟现实等领域的应用。

📄 摘要（原文）

We introduce Sparse Forcing, a training-and-inference paradigm for autoregressive video diffusion models that improves long-horizon generation quality while reducing decoding latency. Sparse Forcing is motivated by an empirical observation in autoregressive diffusion rollouts: attention concentrates on a persistent subset of salient visual blocks, forming an implicit spatiotemporal memory in the KV cache, and exhibits a locally structured block-sparse pattern within sliding windows. Building on this observation, we propose a trainable native sparsity mechanism that learns to compress, preserve, and update these persistent blocks while restricting computation within each local window to a dynamically selected local neighborhood. To make the approach practical at scale for both training and inference, we further propose Persistent Block-Sparse Attention (PBSA), an efficient GPU kernel that accelerates sparse attention and memory updates for low-latency, memory-efficient decoding. Experiments show that Sparse Forcing improves the VBench score by +0.26 over Self-Forcing on 5-second text-to-video generation while delivering a 1.11-1.17x decoding speedup and 42% lower peak KV-cache footprint. The gains are more pronounced on longer-horizon rollouts, delivering improved visual quality with +0.68 and +2.74 VBench improvements, and 1.22x and 1.27x speedups on 20-second and 1-minute generations, respectively.

Sparse Forcing: Native Trainable Sparse Attention for Real-time Autoregressive Diffusion Video Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理