PulseCol: Periodically Refreshed Column-Sparse Attention for Accelerating Diffusion Language Models

📄 arXiv: 2605.20813v1 📥 PDF

作者: Yanyi Lyu, Letian Chen, Futing Sun, Miao Zhang, Weili Guan, Liqiang Nie

分类: cs.CL

发布日期: 2026-05-20


💡 一句话要点

PulseCol:用于加速扩散语言模型的周期性刷新列稀疏注意力

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散语言模型 稀疏注意力 列稀疏 模型加速 周期性刷新

📋 核心要点

  1. 扩散语言模型推理计算量大,现有块稀疏方法加速效果有限,无法在早期迭代中有效应用。
  2. PulseCol采用更细粒度的列稀疏结构,并周期性刷新稀疏模式,以在早期迭代中实现更高的稀疏性和加速。
  3. 实验表明,PulseCol在保持模型质量的同时,实现了比现有方法更高的稀疏性和更快的推理速度,端到端加速高达1.95倍。

📝 摘要(中文)

扩散大型语言模型(dLLMs)的推理计算成本很高,因为在去噪过程的每一步都必须重复执行完整的自注意力,而没有KV缓存。最近用于dLLMs的稀疏注意力方法通过块稀疏计算来降低这种成本,这种方法仅在模型性能对粗粒度稀疏近似不太敏感的后期迭代中应用,但计算效率和加速方面的改进有限。这促使人们采用一种更细粒度的稀疏化策略,该策略可以从早期迭代中应用,并利用可重用的稀疏模式,从而进一步提高效率。本文提出了一种用于加速扩散语言模型的周期性刷新列稀疏注意力方法PulseCol。PulseCol用更细粒度的列稀疏结构代替了粗粒度的块级稀疏性,从而可以更精确地保留重要的注意力交互,同时暴露更大的稀疏性。基于这种列级公式,PulseCol进一步识别早期去噪步骤中的稀疏模式,并在后续迭代中重用它们,仅在少量中间步骤中刷新它们,以跟踪去噪过程中稀疏注意力模式的演变。实验表明,PulseCol比以前的dLLMs稀疏注意力方法实现了更高的稀疏性和更大的实际加速,同时保持了模型质量。在优化的列稀疏注意力GPU内核的支持下,PulseCol在多个上下文长度上实现了比FlashAttention高达1.95倍的端到端加速。

🔬 方法详解

问题定义:扩散语言模型(dLLMs)推理阶段计算复杂度高,尤其是在自注意力机制上。现有的块稀疏方法虽然能降低计算量,但通常只能在去噪过程的后期应用,因为早期迭代对模型性能影响较大,粗粒度的块稀疏会损失过多信息。因此,如何在保证模型性能的前提下,在早期迭代中实现更高的稀疏性和加速,是本文要解决的问题。

核心思路:PulseCol的核心思路是采用更细粒度的列稀疏注意力,并结合周期性刷新机制。列稀疏相比块稀疏能更精确地保留重要的注意力交互,从而在早期迭代中也能安全地应用。周期性刷新机制则允许模型在去噪过程中动态调整稀疏模式,以适应注意力模式的变化,同时避免完全重新计算稀疏模式带来的额外开销。

技术框架:PulseCol主要包含两个阶段:稀疏模式初始化和周期性刷新。在稀疏模式初始化阶段,模型在早期去噪步骤中学习稀疏模式。在周期性刷新阶段,模型在后续迭代中重用这些稀疏模式,并在少量中间步骤中刷新它们,以跟踪稀疏注意力模式的演变。整个过程利用优化的GPU内核加速列稀疏注意力的计算。

关键创新:PulseCol的关键创新在于:1) 提出了列稀疏注意力结构,相比块稀疏更细粒度,信息损失更少;2) 引入了周期性刷新机制,允许稀疏模式在去噪过程中动态调整,避免了完全重新计算的开销,同时保证了模型性能。

关键设计:PulseCol的关键设计包括:1) 列稀疏比例的设置,需要在稀疏度和模型性能之间进行权衡;2) 刷新频率的设置,需要在计算开销和模型性能之间进行权衡;3) 优化的GPU内核,用于加速列稀疏注意力的计算。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PulseCol在多个上下文长度上实现了比FlashAttention高达1.95倍的端到端加速,同时保持了模型质量。实验结果表明,PulseCol能够有效提高扩散语言模型的推理速度,并且优于现有的稀疏注意力方法。这证明了PulseCol在加速dLLMs方面的有效性和优越性。

🎯 应用场景

PulseCol可以应用于各种需要加速扩散语言模型推理的场景,例如文本生成、图像生成、语音合成等。通过降低计算成本,PulseCol使得在资源受限的设备上部署dLLMs成为可能,并可以加速AI创作工具的迭代速度。未来,PulseCol的思路可以推广到其他类型的Transformer模型中,进一步提升模型的效率。

📄 摘要(原文)

Inference in diffusion large language models (dLLMs) is computationally expensive, as full self-attention must be repeatedly executed at each step of the denoising process without KV cache. Recent sparse attention methods for dLLMs mitigate this cost via block-sparse computation, which is applied only in later iterations when model performance is less sensitive to coarse-grained sparse approximation, but yields limited improvements in computational efficiency and acceleration. This motivates a finer-grained sparsification strategy that can be applied from earlier iterations and leverages reusable sparsity patterns, enabling further efficiency gains. In this work, we introduce PulseCol, a periodically refreshed column-sparse attention method for accelerating diffusion language models. PulseCol replaces coarse block-level sparsity with a finer-grained column-sparse structure, allowing important attention interactions to be retained more precisely while exposing greater sparsity. Built on this column-level formulation, PulseCol further identifies sparse patterns at the early denoising step and reuses them across subsequent iterations, refreshing them only at a small number of intermediate steps to track the evolution of sparse attention patterns during denoising. Experiments show that PulseCol achieves higher sparsity and greater practical speedup than prior sparse attention methods for dLLMs, while maintaining model quality. Enabled by optimized GPU kernels for column-sparse attention, PulseCol delivers up to 1.95$\times$ end-to-end speedup over FlashAttention across several context lengths.