Veda: Scalable Video Diffusion via Distilled Sparse Attention

📄 arXiv: 2605.30325v1 📥 PDF

作者: Shihao Han, Hao Yang, Xinting Hu, Xiaofeng Mei, Yi Jiang, Xiaojuan Qi

分类: cs.CV

发布日期: 2026-05-28

备注: Accepted to ICML 2026


💡 一句话要点

Veda:通过蒸馏稀疏注意力实现可扩展的视频扩散模型

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 视频扩散模型 稀疏注意力 蒸馏学习 长视频生成 计算加速

📋 核心要点

  1. 现有视频扩散模型受限于自注意力的计算复杂度,难以生成高分辨率长视频,而传统稀疏注意力方法在高稀疏度下性能下降。
  2. Veda通过蒸馏完整注意力信息,学习选择与完整注意力块状几何结构对齐的稀疏块,从而在高稀疏度下保持生成质量。
  3. 实验表明,Veda在Waver和Wan2.1等模型上实现了显著的加速,且生成质量没有明显下降,尤其在长视频生成中优势明显。

📝 摘要(中文)

将扩散Transformer扩展到生成高分辨率、长视频受到自注意力的二次方成本的限制,并且现有的稀疏注意力方法在高稀疏度下性能会下降。本文通过实验表明,生成质量并非由稀疏度本身决定,而是由稀疏掩码与完整注意力块状几何结构的对齐程度决定。基于此,本文提出了Veda,一种蒸馏稀疏注意力框架,将块选择建模为从完整注意力中显式重建的问题。Veda集成了统计感知块评分和头感知分块,以减少估计误差和结构失配,从而实现更高的稀疏度。一种硬件高效的块跳过内核将理论稀疏性转化为实际的运行加速。在大型视频扩散模型(包括Waver和Wan2.1)上的实验表明,Veda在生成质量没有明显下降的情况下实现了显著的加速。在Waver-T2V-12B上生成720P 10秒视频时,Veda实现了5.1倍的端到端加速和10.5倍的自注意力加速,将注意力开销从92%降低到50%。值得注意的是,增益随着序列长度的增加而增加,表明Veda在不同模型中可以随着时空分辨率的增加而良好扩展。

🔬 方法详解

问题定义:论文旨在解决视频扩散模型中自注意力机制计算复杂度过高的问题,尤其是在生成高分辨率、长视频时。现有稀疏注意力方法虽然可以降低计算量,但在高稀疏度下会损失生成质量,无法有效平衡计算效率和生成质量。

核心思路:论文的核心思路是,生成质量的关键在于稀疏掩码与完整注意力之间的对齐程度,而非稀疏度本身。因此,通过学习如何选择与完整注意力分布相似的稀疏块,可以在高稀疏度下保持生成质量。具体而言,将块选择建模为一个从完整注意力中重建信息的任务,通过蒸馏的方式学习稀疏注意力掩码。

技术框架:Veda框架主要包含以下几个阶段:首先,计算完整注意力;然后,通过统计感知块评分和头感知分块选择重要的注意力块;接着,利用选择的块进行稀疏注意力计算;最后,通过硬件高效的块跳过内核实现加速。整体流程旨在模拟完整注意力的同时,显著降低计算成本。

关键创新:Veda的关键创新在于其蒸馏稀疏注意力的方法,它将稀疏注意力掩码的学习过程视为一个重建完整注意力的任务。与传统稀疏注意力方法直接进行稀疏化不同,Veda通过学习选择与完整注意力分布相似的块,从而更好地保留了关键信息。此外,统计感知块评分和头感知分块进一步提升了块选择的准确性。

关键设计:Veda的关键设计包括:1) 统计感知块评分,用于评估每个块的重要性,并选择信息量最大的块;2) 头感知分块,考虑了不同注意力头的特性,从而更准确地选择块;3) 硬件高效的块跳过内核,将理论上的稀疏性转化为实际的加速效果。具体的损失函数和网络结构细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Veda在Waver-T2V-12B模型上生成720P 10秒视频时,实现了5.1倍的端到端加速和10.5倍的自注意力加速,同时将注意力开销从92%降低到50%。实验结果表明,Veda在保持生成质量的同时,显著提升了视频扩散模型的效率,尤其是在处理长序列时,加速效果更加明显。

🎯 应用场景

Veda具有广泛的应用前景,包括但不限于:更高分辨率、更长时长的视频生成,降低视频生成所需的计算资源,加速视频编辑和特效制作流程,以及在资源受限的设备上部署视频生成模型。该技术可以推动视频内容创作的普及,并为虚拟现实、增强现实等领域提供更逼真的内容。

📄 摘要(原文)

Scaling Diffusion Transformers to generate high-resolution, long videos is constrained by the quadratic cost of self-attention, and existing sparse attention methods degrade under high sparsity. We show empirically that generation quality is determined not by the sparsity ratio itself, but by how well the sparse mask aligns with the tile-wise geometry of full attention. Based on this insight, we propose Veda, a distilled sparse attention framework that formulates tile selection as an explicit reconstruction problem from full attention. Veda integrates statistics-aware tile scoring with head-aware tiling to reduce estimation error and structural mismatch, enabling aggressive sparsity. A hardware-efficient tile-skipping kernel converts theoretical sparsity into practical wall-clock speedups. Experiments on large video diffusion models, including Waver and Wan2.1, demonstrate substantial acceleration with no noticeable degradation in generation quality. To generate 720P 10-second videos on Waver-T2V-12B, Veda achieves a 5.1$\times$ end-to-end speedup and a 10.5$\times$ self-attention speedup, reducing attention overhead from 92% to 50%. Notably, the gains increase with sequence length, indicating that Veda scales favorably with spatiotemporal resolution across models.