Stability Implies Redundancy: Delta Attention Selective Halting for Efficient Long-Context Prefilling

📄 arXiv: 2604.18103v1 📥 PDF

作者: Yujie Chen, Tailai Chen, Yifeng Gao, Zoe Wanying He, Yijue Xu, Shaobo Wang, Linfeng Zhang

分类: cs.AI

发布日期: 2026-04-20

🔗 代码/项目: GITHUB


💡 一句话要点

提出DASH:利用Delta注意力选择性停止加速长文本预填充,保持硬件效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长文本处理 预填充加速 注意力机制 选择性停止 硬件效率

📋 核心要点

  1. 长文本预填充计算成本高昂,现有token剪枝方法与硬件加速不兼容。
  2. DASH通过监控自注意力更新动态,选择性停止已稳定的token,无需额外训练。
  3. 实验表明,DASH在语言和视觉任务中均能显著加速预填充,同时保持模型精度。

📝 摘要(中文)

长文本场景下,预填充计算成本是大型语言模型(LLMs)和大型多模态模型(LMMs)的一个显著瓶颈。虽然token剪枝可以减少序列长度,但现有方法依赖于启发式算法,破坏了与FlashAttention等硬件高效内核的兼容性。本文观察到,tokens会演化到语义固定点,使得进一步处理变得冗余。为此,我们引入了Delta注意力选择性停止(DASH),这是一种无需训练的策略,它监控自注意力机制的逐层更新动态,以选择性地停止已稳定的tokens。广泛的评估证实,DASH可以推广到语言和视觉基准,在保持模型精度和硬件效率的同时,显著提高预填充速度。代码将在https://github.com/verach3n/DASH.git发布。

🔬 方法详解

问题定义:论文旨在解决长文本预填充过程中计算成本过高的问题。现有的token剪枝方法虽然可以减少序列长度,但通常依赖于启发式规则,破坏了与硬件高效内核(如FlashAttention)的兼容性,导致无法充分利用硬件加速的优势。

核心思路:论文的核心思路是观察到tokens在经过多层处理后会逐渐趋于“语义固定点”,即后续的处理对token的语义影响很小,变得冗余。因此,可以通过监控tokens的更新动态,选择性地停止对已稳定tokens的处理,从而减少计算量。

技术框架:DASH (Delta Attention Selective Halting) 的整体框架是在Transformer模型的每一层之后,计算当前层和上一层注意力权重之间的差异(Delta Attention)。如果某个token的注意力权重变化小于预设的阈值,则认为该token已经稳定,可以停止后续层的计算。该框架不需要额外的训练,可以直接应用于现有的预训练模型。

关键创新:DASH的关键创新在于提出了一种无需训练的选择性停止策略,该策略基于对自注意力机制更新动态的观察。与现有方法相比,DASH不需要额外的训练数据或模型修改,并且与硬件高效内核兼容,可以充分利用硬件加速的优势。

关键设计:DASH的关键设计在于Delta Attention的计算和停止阈值的选择。Delta Attention通常使用L2范数来衡量注意力权重的变化。停止阈值需要根据具体的任务和模型进行调整,以在加速和精度之间取得平衡。论文中可能探讨了不同阈值对性能的影响,并给出了选择阈值的建议。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过在多个语言和视觉基准上的实验验证了DASH的有效性。实验结果表明,DASH能够在保持模型精度的情况下,显著提高预填充速度。具体的性能数据和提升幅度需要在论文中查找,例如,DASH可能在某个基准上实现了X%的加速,同时精度下降小于Y%。DASH与现有token剪枝方法进行了对比,并展示了其在硬件效率方面的优势。

🎯 应用场景

DASH可以广泛应用于需要处理长文本的场景,例如长文档摘要、机器翻译、问答系统和多模态理解等。通过降低预填充的计算成本,DASH可以提高这些应用的效率和可扩展性,使得在资源受限的环境中部署大型语言模型和多模态模型成为可能。此外,DASH的硬件兼容性使其能够充分利用现有的硬件加速技术,进一步提高性能。

📄 摘要(原文)

Prefilling computational costs pose a significant bottleneck for Large Language Models (LLMs) and Large Multimodal Models (LMMs) in long-context settings. While token pruning reduces sequence length, prior methods rely on heuristics that break compatibility with hardware-efficient kernels like FlashAttention. In this work, we observe that tokens evolve toward \textit{semantic fixing points}, making further processing redundant. To this end, we introduce Delta Attention Selective Halting (DASH), a training-free policy that monitors the layer-wise update dynamics of the self-attention mechanism to selectively halt stabilized tokens. Extensive evaluation confirms that DASH generalizes across language and vision benchmarks, delivering significant prefill speedups while preserving model accuracy and hardware efficiency. Code will be released at https://github.com/verach3n/DASH.git.