SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention

作者: Jintao Zhang, Haoxu Wang, Kai Jiang, Shuo Yang, Kaiwen Zheng, Haocheng Xi, Ziteng Wang, Hongzhou Zhu, Min Zhao, Ion Stoica, Joseph E. Gonzalez, Jun Zhu, Jianfei Chen

分类: cs.LG, cs.AI, cs.CV

发布日期: 2025-09-28 (更新: 2025-11-19)

🔗 代码/项目: GITHUB

💡 一句话要点

提出SLA：一种可微调的稀疏线性注意力机制，加速Diffusion Transformer模型。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: Diffusion Transformer 稀疏注意力 线性注意力 视频生成 模型加速 可训练注意力 GPU内核优化

📋 核心要点

Diffusion Transformer模型在视频生成中面临长序列和二次复杂度带来的注意力计算瓶颈。
SLA通过将注意力权重分类，对关键权重使用稀疏注意力，对边缘权重使用线性注意力，忽略可忽略权重。
实验表明，SLA在不损失生成质量的前提下，显著减少了注意力计算量，并实现了端到端加速。

📝 摘要（中文）

本文提出了一种名为SLA（Sparse-Linear Attention）的可训练注意力方法，旨在融合稀疏注意力和线性注意力，从而加速Diffusion Transformer (DiT) 模型，尤其是在视频生成任务中。研究发现，注意力权重可以分解为两部分：一小部分具有高秩的大权重和剩余的具有极低秩的权重。SLA将注意力权重分为关键、边缘和可忽略三类，分别应用O(N^2)复杂度、O(N)复杂度和跳过操作。SLA将这些计算融合到单个GPU内核中，并支持前向和后向传播。通过少量微调，DiT模型使用SLA可实现20倍的注意力计算量减少，从而在不损失生成质量的情况下显著加速。实验表明，SLA在不降低端到端生成质量的情况下，将注意力计算量减少了95%，优于基线方法。此外，SLA的高效GPU内核在Wan2.1-1.3B数据集上实现了13.7倍的注意力计算加速和2.2倍的端到端视频生成加速。代码已开源。

🔬 方法详解

问题定义：Diffusion Transformer (DiT) 模型在处理长序列（如视频生成）时，注意力机制的计算复杂度为O(N^2)，成为性能瓶颈。现有的稀疏注意力方法虽然可以降低计算复杂度，但可能导致生成质量下降。

核心思路：论文的核心思路是将注意力权重分解为重要和不重要的部分，并对不同部分采用不同的加速策略。具体来说，将注意力权重分为高秩的重要权重和低秩的不重要权重，分别使用稀疏注意力和线性注意力进行加速。

技术框架：SLA方法包含以下几个主要步骤：1) 将注意力权重分为“关键”、“边缘”和“可忽略”三类。2) 对“关键”权重应用标准的O(N^2)注意力计算。3) 对“边缘”权重应用线性注意力，将复杂度降低到O(N)。4) 直接跳过“可忽略”的权重。5) 将所有计算合并到一个高效的GPU内核中，以实现加速。

关键创新：SLA的关键创新在于提出了一种可训练的注意力机制，能够自适应地学习哪些注意力权重是重要的，哪些是不重要的。通过这种方式，SLA可以在保证生成质量的前提下，最大程度地减少注意力计算量。与传统的稀疏注意力方法相比，SLA不需要手动设计稀疏模式，而是通过学习自动确定。

关键设计：SLA的关键设计包括：1) 使用一个可学习的分类器来将注意力权重分为“关键”、“边缘”和“可忽略”三类。2) 设计了一个高效的GPU内核，能够将稀疏注意力和线性注意力计算融合在一起。3) 使用少量微调来使DiT模型适应SLA。

🖼️ 关键图片

📊 实验亮点

SLA在DiT模型上实现了显著的加速效果。实验结果表明，SLA可以将注意力计算量减少95%，同时保持与原始DiT模型相当的生成质量。在Wan2.1-1.3B数据集上，SLA实现了13.7倍的注意力计算加速和2.2倍的端到端视频生成加速，明显优于其他基线方法。这些结果表明SLA是一种高效且有效的注意力加速方法。

🎯 应用场景

SLA具有广泛的应用前景，尤其是在需要处理长序列数据的生成任务中，例如高清视频生成、3D内容生成等。通过降低注意力计算复杂度，SLA可以显著减少计算资源消耗，并提高生成速度，从而使得更大规模、更高质量的生成模型成为可能。此外，SLA还可以应用于其他Transformer模型，以加速其在各种任务中的推理速度。

📄 摘要（原文）

In Diffusion Transformer (DiT) models, particularly for video generation, attention latency is a major bottleneck due to the long sequence length and the quadratic complexity. We find that attention weights can be separated into two parts: a small fraction of large weights with high rank and the remaining weights with very low rank. This naturally suggests applying sparse acceleration to the first part and low-rank acceleration to the second. Based on this finding, we propose SLA (Sparse-Linear Attention), a trainable attention method that fuses sparse and linear attention to accelerate diffusion models. SLA classifies attention weights into critical, marginal, and negligible categories, applying O(N^2) attention to critical weights, O(N) attention to marginal weights, and skipping negligible ones. SLA combines these computations into a single GPU kernel and supports both forward and backward passes. With only a few fine-tuning steps using SLA, DiT models achieve a 20x reduction in attention computation, resulting in significant acceleration without loss of generation quality. Experiments show that SLA reduces attention computation by 95% without degrading end-to-end generation quality, outperforming baseline methods. In addition, we implement an efficient GPU kernel for SLA, which yields a 13.7x speedup in attention computation and a 2.2x end-to-end speedup in video generation on Wan2.1-1.3B. The code is available at https://github.com/thu-ml/SLA.

SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理