Punctuation-aware Hybrid Trainable Sparse Attention for Large Language Models

📄 arXiv: 2601.02819v1 📥 PDF

作者: Junxiang Qiu, Shuo Wang, Zhengsu Chen, Hengheng Zhang, Jinda Lu, Changcheng Li, Qi Tian

分类: cs.CL

发布日期: 2026-01-06


💡 一句话要点

提出Punctuation-aware Hybrid Sparse Attention (PHSA),提升长文本建模中稀疏注意力机制的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 稀疏注意力 长文本建模 大型语言模型 标点符号感知 信息损失 双分支网络 语义边界

📋 核心要点

  1. 现有稀疏注意力方法在选择信息块时,语义表示粗糙,导致块内语义边界模糊和关键信息丢失。
  2. PHSA利用标点符号作为语义边界锚点,设计双分支聚合机制融合全局语义和标点增强的边界特征。
  3. 实验表明,PHSA在通用基准和长文本评估中优于稠密注意力及其他稀疏注意力方法,信息损失显著降低。

📝 摘要(中文)

大型语言模型(LLM)中,注意力机制是长文本建模的基础。然而,由于其二次复杂度,稠密注意力在长序列上变得难以处理。因此,稀疏注意力作为一种可扩展的替代方案受到了越来越多的关注。但是,现有的稀疏注意力方法在块选择过程中依赖于粗粒度的语义表示,这模糊了块内的语义边界,导致关键信息的丢失。为了解决这个问题,我们提出了标点符号感知的混合稀疏注意力(PHSA),这是一个原生可训练的稀疏注意力框架,它利用标点符号作为语义边界锚点。具体来说,(1)我们设计了一种双分支聚合机制,将全局语义表示与标点符号增强的边界特征融合,在几乎不增加额外计算开销的情况下,保留了核心语义结构;(2)我们引入了一种极度稀疏自适应的训练和推理策略,以稳定模型在极低token激活率下的行为。在通用基准和长文本评估上的大量实验表明,PHSA始终优于稠密注意力和最先进的稀疏注意力基线,包括InfLLM v2。具体来说,对于具有32k token输入序列的0.6B参数模型,PHSA可以在97.3%的稀疏率下将信息损失降低10.8%。

🔬 方法详解

问题定义:现有稀疏注意力方法在处理长文本时,由于依赖粗粒度的语义表示进行信息块选择,导致块内的语义边界模糊,关键信息丢失。这限制了模型在长文本建模中的性能,尤其是在需要精确理解语义边界的任务中。

核心思路:PHSA的核心思路是利用标点符号作为语义边界的天然锚点,通过增强模型对标点符号的感知,更准确地划分和选择信息块。这种方法旨在保留块内的语义完整性,减少信息损失,从而提高长文本建模的性能。

技术框架:PHSA采用双分支聚合机制。一个分支处理全局语义表示,另一个分支专注于标点符号增强的边界特征。这两个分支的输出被融合,以生成更精确的注意力权重。此外,该框架还包括一个极度稀疏自适应的训练和推理策略,以确保模型在极低token激活率下的稳定性。整体流程包括:输入文本 -> 标点符号检测 -> 双分支特征提取 -> 特征融合 -> 稀疏注意力计算 -> 输出。

关键创新:PHSA的关键创新在于标点符号感知的混合稀疏注意力机制。与现有方法不同,PHSA显式地利用标点符号作为语义边界的指示器,从而能够更准确地选择和聚合信息块。这种方法在保留语义完整性和减少信息损失方面具有显著优势。

关键设计:PHSA的关键设计包括:(1) 双分支聚合机制的具体实现,例如使用不同的神经网络层来提取全局语义和标点符号特征;(2) 特征融合的方式,例如使用加权平均或注意力机制来融合两个分支的输出;(3) 极度稀疏自适应训练策略,例如使用动态调整的稀疏率或正则化项来稳定模型训练;(4) 损失函数的设计,可能包括交叉熵损失和额外的正则化项,以鼓励模型学习到更有效的稀疏表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PHSA在各种基准测试中均优于稠密注意力和现有的稀疏注意力方法,包括InfLLM v2。对于一个具有32k token输入序列的0.6B参数模型,PHSA在97.3%的稀疏率下,信息损失降低了10.8%。这表明PHSA在保持性能的同时,显著降低了计算复杂度。

🎯 应用场景

PHSA可应用于各种需要处理长文本的自然语言处理任务,例如长文档摘要、机器翻译、问答系统和对话生成。通过提高长文本建模的效率和准确性,PHSA可以提升这些应用在处理复杂和长篇内容时的性能,并降低计算成本。此外,该方法在资源受限的设备上部署大型语言模型也具有潜力。

📄 摘要(原文)

Attention serves as the fundamental mechanism for long-context modeling in large language models (LLMs), yet dense attention becomes structurally prohibitive for long sequences due to its quadratic complexity. Consequently, sparse attention has received increasing attention as a scalable alternative. However, existing sparse attention methods rely on coarse-grained semantic representations during block selection, which blur intra-block semantic boundaries and lead to the loss of critical information. To address this issue, we propose \textbf{P}unctuation-aware \textbf{H}ybrid \textbf{S}parse \textbf{A}ttention \textbf{(PHSA)}, a natively trainable sparse attention framework that leverages punctuation tokens as semantic boundary anchors. Specifically, (1) we design a dual-branch aggregation mechanism that fuses global semantic representations with punctuation-enhanced boundary features, preserving the core semantic structure while introducing almost no additional computational overhead; (2) we introduce an extreme-sparsity-adaptive training and inference strategy that stabilizes model behavior under very low token activation ratios; Extensive experiments on general benchmarks and long-context evaluations demonstrate that PHSA consistently outperforms dense attention and state-of-the-art sparse attention baselines, including InfLLM v2. Specifically, for the 0.6B-parameter model with 32k-token input sequences, PHSA can reduce the information loss by 10.8\% at a sparsity ratio of 97.3\%.