BLADE: Block-Sparse Attention Meets Step Distillation for Efficient Video Generation

作者: Youping Gu, Xiaolong Li, Yuhao Hu, Minqi Chen, Bohan Zhuang

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-08-14 (更新: 2025-09-29)

备注: Tech report

💡 一句话要点

提出BLADE框架，通过块稀疏注意力与步进蒸馏加速高效视频生成。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱八：物理动画 (Physics-based Animation)

关键词: 视频生成 扩散Transformer 稀疏注意力 步进蒸馏 模型加速 轨迹分布匹配 无数据训练

📋 核心要点

扩散Transformer视频生成质量高但推理速度慢，长序列注意力计算成本是主要瓶颈。
BLADE框架提出自适应块稀疏注意力（ASA）和稀疏感知步进蒸馏，实现高效加速。
实验表明，BLADE在加速的同时提升了视频质量，VBench-2.0指标和人工评估均有提高。

📝 摘要（中文）

扩散Transformer在高质量视频生成领域表现领先，但其迭代去噪过程缓慢，且长序列的二次方注意力计算成本高昂，造成显著的推理瓶颈。步进蒸馏和稀疏注意力机制作为独立的加速策略已显示出潜力，但有效结合这些方法面临关键挑战——无训练集成效果不佳，而步进蒸馏后单独训练稀疏注意力需要极其昂贵的高质量视频数据。为克服这些限制，我们提出了BLADE，一种创新的无数据联合训练框架，引入了：（1）自适应块稀疏注意力（ASA）机制，用于动态生成内容感知的稀疏掩码，以将计算集中在显著的时空特征上；（2）基于轨迹分布匹配（TDM）的稀疏感知步进蒸馏范式，直接将稀疏性纳入蒸馏过程，而不是将其视为单独的压缩步骤，并具有快速收敛的特点。我们在CogVideoX-5B和Wan2.1-1.3B等文本到视频模型上验证了BLADE，我们的框架展示了不同规模下的显著效率提升。在Wan2.1-1.3B上，BLADE实现了比50步基线快14.10倍的端到端推理加速。此外，在CogVideoX-5B等短视频序列长度的模型上，我们的框架提供了强大的8.89倍加速。至关重要的是，加速伴随着质量的持续提高。在VBench-2.0基准测试中，BLADE将CogVideoX-5B的分数提高到0.569（从0.534），将Wan2.1-1.3B的分数提高到0.570（从0.563），这些结果得到了人类评估中更高评分的进一步证实。

🔬 方法详解

问题定义：论文旨在解决扩散Transformer在视频生成中推理速度慢的问题，尤其是在处理长视频序列时，注意力机制的计算复杂度呈二次方增长，成为性能瓶颈。现有的步进蒸馏和稀疏注意力方法虽然可以单独加速，但结合使用时效果不佳，或者需要大量高质量视频数据进行训练，成本高昂。

核心思路：论文的核心思路是设计一个无数据联合训练框架BLADE，同时优化稀疏注意力和步进蒸馏过程。通过自适应块稀疏注意力（ASA）动态生成内容感知的稀疏掩码，减少不必要的计算。同时，将稀疏性直接融入步进蒸馏过程，避免将其作为独立的压缩步骤，从而实现更快的收敛和更高的效率。

技术框架：BLADE框架主要包含两个核心模块：自适应块稀疏注意力（ASA）和稀疏感知步进蒸馏。ASA模块负责动态生成稀疏掩码，指导注意力计算集中在重要的时空特征上。稀疏感知步进蒸馏模块则基于轨迹分布匹配（TDM），在蒸馏过程中考虑稀疏性，使得学生模型能够更好地学习教师模型的稀疏表示。整体流程是先使用ASA进行稀疏注意力计算，然后利用稀疏感知步进蒸馏训练学生模型，最终得到一个高效且高质量的视频生成模型。

关键创新：最重要的技术创新点在于提出了一个无数据联合训练框架，将稀疏注意力和步进蒸馏紧密结合。与现有方法相比，BLADE无需额外的高质量视频数据进行训练，而是通过自适应的稀疏掩码和稀疏感知的蒸馏过程，实现了更高效的加速和更高的视频质量。这种联合优化策略避免了单独训练稀疏注意力带来的高成本问题，并充分利用了步进蒸馏的优势。

关键设计：ASA模块的关键设计在于如何动态生成内容感知的稀疏掩码。论文可能采用了一种基于内容相似性的策略，例如计算不同块之间的相关性，并根据相关性大小来决定是否保留该块的注意力计算。稀疏感知步进蒸馏的关键设计在于如何将稀疏性融入轨迹分布匹配（TDM）损失函数中。论文可能通过修改TDM损失函数，使得学生模型在学习教师模型轨迹分布的同时，也学习教师模型的稀疏模式。具体的参数设置和网络结构细节未知。

🖼️ 关键图片

📊 实验亮点

BLADE在Wan2.1-1.3B模型上实现了14.10倍的端到端推理加速，在CogVideoX-5B模型上实现了8.89倍的加速。更重要的是，加速的同时视频质量也得到了提升。在VBench-2.0基准测试中，CogVideoX-5B的分数从0.534提高到0.569，Wan2.1-1.3B的分数从0.563提高到0.570。人工评估也表明，BLADE生成的视频质量优于基线模型。

🎯 应用场景

BLADE框架可应用于各种需要快速视频生成的场景，例如游戏、电影制作、广告设计等。它能够显著降低视频生成的计算成本，提高生成效率，使得高质量视频生成在资源受限的环境中成为可能。未来，该技术有望推动视频生成在移动设备和边缘计算平台上的应用，并促进个性化视频内容的普及。

📄 摘要（原文）

Diffusion Transformers currently lead the field in high-quality video generation, but their slow iterative denoising process and prohibitive quadratic attention costs for long sequences create significant inference bottlenecks. While both step distillation and sparse attention mechanisms have shown promise as independent acceleration strategies, effectively combining these approaches presents critical challenges -- training-free integration yields suboptimal results, while separately training sparse attention after step distillation requires prohibitively expensive high-quality video data. To overcome these limitations, we propose BLADE, an innovative data-free joint training framework that introduces: (1) an Adaptive Block-Sparse Attention (ASA) mechanism for dynamically generating content-aware sparsity masks to focus computation on salient spatiotemporal features, and (2) a sparsity-aware step distillation paradigm, built upon Trajectory Distribution Matching (TDM), directly incorporates sparsity into the distillation process rather than treating it as a separate compression step and features fast convergence. We validate BLADE on text-to-video models like CogVideoX-5B and Wan2.1-1.3B, and our framework demonstrates remarkable efficiency gains across different scales. On Wan2.1-1.3B, BLADE achieves a 14.10x end-to-end inference acceleration over a 50-step baseline. Moreover, on models such as CogVideoX-5B with short video sequence lengths, our framework delivers a robust 8.89x speedup. Crucially, the acceleration is accompanied by a consistent quality improvement. On the VBench-2.0 benchmark, BLADE boosts the score of CogVideoX-5B to 0.569 (from 0.534) and Wan2.1-1.3B to 0.570 (from 0.563), results that are further corroborated by superior ratings in human evaluations. Project is available at http://ziplab.co/BLADE-Homepage/.

BLADE: Block-Sparse Attention Meets Step Distillation for Efficient Video Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理