Sparse Forcing: Native Trainable Sparse Attention for Real-time Autoregressive Diffusion Video Generation

📄 arXiv: 2604.21221v1 📥 PDF

作者: Boxun Xu, Yuming Du, Zichang Liu, Siyu Yang, Ziyang Jiang, Siqi Yan, Rajasi Saha, Albert Pumarola, Wenchen Wang, Peng Li

分类: cs.CV, cs.LG

发布日期: 2026-04-23


💡 一句话要点

提出Sparse Forcing,加速自回归扩散视频生成,提升长时序生成质量。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 自回归模型 视频生成 扩散模型 稀疏注意力 长时序建模

📋 核心要点

  1. 自回归视频扩散模型在长时序生成中面临计算成本高、生成质量下降的挑战。
  2. Sparse Forcing通过学习压缩和保留显著视觉块,并限制局部窗口内的计算,实现高效稀疏注意力。
  3. 实验表明,Sparse Forcing在加速解码的同时,显著提升了长时序视频生成的视觉质量。

📝 摘要(中文)

本文提出Sparse Forcing,一种用于自回归视频扩散模型的训练和推理范式,旨在提高长时程生成质量并降低解码延迟。Sparse Forcing的动机源于自回归扩散展开中的一个经验观察:注意力集中在显著视觉块的持久子集上,在KV缓存中形成隐式的时空记忆,并在滑动窗口内呈现局部结构化的块稀疏模式。基于此,我们提出了一种可训练的本地稀疏机制,该机制学习压缩、保存和更新这些持久块,同时将每个本地窗口内的计算限制在动态选择的本地邻域内。为了使该方法在训练和推理中具有可扩展性,我们进一步提出了Persistent Block-Sparse Attention (PBSA),这是一种高效的GPU内核,可加速稀疏注意力和内存更新,从而实现低延迟、内存高效的解码。实验表明,在5秒文本到视频生成中,Sparse Forcing的VBench得分比Self-Forcing提高了+0.26,同时提供了1.11-1.17倍的解码加速和42%的峰值KV缓存占用降低。在更长的时程展开中,收益更加明显,在20秒和1分钟的生成中,视觉质量分别提高了+0.68和+2.74 VBench,速度分别提高了1.22倍和1.27倍。

🔬 方法详解

问题定义:现有的自回归视频扩散模型在生成长时序视频时,计算复杂度高,解码速度慢,并且由于误差累积,生成质量会显著下降。尤其是在注意力机制中,需要对所有像素进行计算,计算量巨大。

核心思路:论文的核心思路是利用视频帧中存在冗余信息的特性,通过稀疏化注意力机制,只关注重要的视觉块,从而减少计算量,提高解码速度,并改善长时序生成质量。作者观察到注意力集中在少数显著的视觉块上,这些块在时间上具有持久性,因此可以通过学习来压缩和保留这些块。

技术框架:Sparse Forcing包含训练和推理两个阶段。在训练阶段,模型学习如何选择和保留重要的视觉块。在推理阶段,模型利用学习到的稀疏模式进行高效的解码。Persistent Block-Sparse Attention (PBSA) 是一个关键组件,它是一个高效的GPU内核,用于加速稀疏注意力和内存更新。整体流程包括:输入视频帧,通过可训练的稀疏机制选择重要视觉块,使用PBSA进行稀疏注意力计算,更新KV缓存,生成下一帧。

关键创新:最重要的技术创新点是可训练的本地稀疏机制和Persistent Block-Sparse Attention (PBSA)。可训练的稀疏机制能够动态地选择重要的视觉块,而PBSA则能够高效地执行稀疏注意力计算和内存更新。与现有方法的本质区别在于,Sparse Forcing不是对所有像素进行计算,而是只关注重要的视觉块,从而大大减少了计算量。

关键设计:关键设计包括:1. 使用滑动窗口来限制局部计算范围;2. 设计损失函数来鼓励模型选择重要的视觉块;3. 使用高效的GPU内核PBSA来加速稀疏注意力计算和内存更新。具体参数设置和网络结构细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Sparse Forcing在5秒文本到视频生成中,VBench得分比Self-Forcing提高了+0.26,同时解码速度提高了1.11-1.17倍,峰值KV缓存占用降低了42%。在20秒和1分钟的生成中,视觉质量分别提高了+0.68和+2.74 VBench,速度分别提高了1.22倍和1.27倍。这些结果表明,Sparse Forcing能够显著提高长时序视频生成的质量和效率。

🎯 应用场景

Sparse Forcing可应用于各种需要生成长时序视频的场景,例如文本到视频生成、视频编辑、视频修复等。该方法能够显著提高生成速度和质量,降低计算成本,具有广泛的应用前景。未来可以进一步探索其在交互式视频生成、虚拟现实等领域的应用。

📄 摘要(原文)

We introduce Sparse Forcing, a training-and-inference paradigm for autoregressive video diffusion models that improves long-horizon generation quality while reducing decoding latency. Sparse Forcing is motivated by an empirical observation in autoregressive diffusion rollouts: attention concentrates on a persistent subset of salient visual blocks, forming an implicit spatiotemporal memory in the KV cache, and exhibits a locally structured block-sparse pattern within sliding windows. Building on this observation, we propose a trainable native sparsity mechanism that learns to compress, preserve, and update these persistent blocks while restricting computation within each local window to a dynamically selected local neighborhood. To make the approach practical at scale for both training and inference, we further propose Persistent Block-Sparse Attention (PBSA), an efficient GPU kernel that accelerates sparse attention and memory updates for low-latency, memory-efficient decoding. Experiments show that Sparse Forcing improves the VBench score by +0.26 over Self-Forcing on 5-second text-to-video generation while delivering a 1.11-1.17x decoding speedup and 42% lower peak KV-cache footprint. The gains are more pronounced on longer-horizon rollouts, delivering improved visual quality with +0.68 and +2.74 VBench improvements, and 1.22x and 1.27x speedups on 20-second and 1-minute generations, respectively.