Punctuation-aware Hybrid Trainable Sparse Attention for Large Language Models

作者: Junxiang Qiu, Shuo Wang, Zhengsu Chen, Hengheng Zhang, Jinda Lu, Changcheng Li, Qi Tian

分类: cs.CL

发布日期: 2026-01-06

💡 一句话要点

提出Punctuation-aware Hybrid Sparse Attention (PHSA)，提升长文本建模中稀疏注意力机制的性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 稀疏注意力 长文本建模 大型语言模型 标点符号感知 信息损失 双分支网络 语义边界

📋 核心要点

现有稀疏注意力方法在选择信息块时，语义表示粗糙，导致块内语义边界模糊和关键信息丢失。
PHSA利用标点符号作为语义边界锚点，设计双分支聚合机制融合全局语义和标点增强的边界特征。
实验表明，PHSA在通用基准和长文本评估中优于稠密注意力及其他稀疏注意力方法，信息损失显著降低。

📝 摘要（中文）

大型语言模型(LLM)中，注意力机制是长文本建模的基础。然而，由于其二次复杂度，稠密注意力在长序列上变得难以处理。因此，稀疏注意力作为一种可扩展的替代方案受到了越来越多的关注。但是，现有的稀疏注意力方法在块选择过程中依赖于粗粒度的语义表示，这模糊了块内的语义边界，导致关键信息的丢失。为了解决这个问题，我们提出了标点符号感知的混合稀疏注意力(PHSA)，这是一个原生可训练的稀疏注意力框架，它利用标点符号作为语义边界锚点。具体来说，(1)我们设计了一种双分支聚合机制，将全局语义表示与标点符号增强的边界特征融合，在几乎不增加额外计算开销的情况下，保留了核心语义结构；(2)我们引入了一种极度稀疏自适应的训练和推理策略，以稳定模型在极低token激活率下的行为。在通用基准和长文本评估上的大量实验表明，PHSA始终优于稠密注意力和最先进的稀疏注意力基线，包括InfLLM v2。具体来说，对于具有32k token输入序列的0.6B参数模型，PHSA可以在97.3%的稀疏率下将信息损失降低10.8%。

🔬 方法详解

问题定义：现有稀疏注意力方法在处理长文本时，由于依赖粗粒度的语义表示进行信息块选择，导致块内的语义边界模糊，关键信息丢失。这限制了模型在长文本建模中的性能，尤其是在需要精确理解语义边界的任务中。

核心思路：PHSA的核心思路是利用标点符号作为语义边界的天然锚点，通过增强模型对标点符号的感知，更准确地划分和选择信息块。这种方法旨在保留块内的语义完整性，减少信息损失，从而提高长文本建模的性能。

技术框架：PHSA采用双分支聚合机制。一个分支处理全局语义表示，另一个分支专注于标点符号增强的边界特征。这两个分支的输出被融合，以生成更精确的注意力权重。此外，该框架还包括一个极度稀疏自适应的训练和推理策略，以确保模型在极低token激活率下的稳定性。整体流程包括：输入文本 -> 标点符号检测 -> 双分支特征提取 -> 特征融合 -> 稀疏注意力计算 -> 输出。

关键创新：PHSA的关键创新在于标点符号感知的混合稀疏注意力机制。与现有方法不同，PHSA显式地利用标点符号作为语义边界的指示器，从而能够更准确地选择和聚合信息块。这种方法在保留语义完整性和减少信息损失方面具有显著优势。

关键设计：PHSA的关键设计包括：(1) 双分支聚合机制的具体实现，例如使用不同的神经网络层来提取全局语义和标点符号特征；(2) 特征融合的方式，例如使用加权平均或注意力机制来融合两个分支的输出；(3) 极度稀疏自适应训练策略，例如使用动态调整的稀疏率或正则化项来稳定模型训练；(4) 损失函数的设计，可能包括交叉熵损失和额外的正则化项，以鼓励模型学习到更有效的稀疏表示。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PHSA在各种基准测试中均优于稠密注意力和现有的稀疏注意力方法，包括InfLLM v2。对于一个具有32k token输入序列的0.6B参数模型，PHSA在97.3%的稀疏率下，信息损失降低了10.8%。这表明PHSA在保持性能的同时，显著降低了计算复杂度。

🎯 应用场景

PHSA可应用于各种需要处理长文本的自然语言处理任务，例如长文档摘要、机器翻译、问答系统和对话生成。通过提高长文本建模的效率和准确性，PHSA可以提升这些应用在处理复杂和长篇内容时的性能，并降低计算成本。此外，该方法在资源受限的设备上部署大型语言模型也具有潜力。

📄 摘要（原文）

Attention serves as the fundamental mechanism for long-context modeling in large language models (LLMs), yet dense attention becomes structurally prohibitive for long sequences due to its quadratic complexity. Consequently, sparse attention has received increasing attention as a scalable alternative. However, existing sparse attention methods rely on coarse-grained semantic representations during block selection, which blur intra-block semantic boundaries and lead to the loss of critical information. To address this issue, we propose \textbf{P}unctuation-aware \textbf{H}ybrid \textbf{S}parse \textbf{A}ttention \textbf{(PHSA)}, a natively trainable sparse attention framework that leverages punctuation tokens as semantic boundary anchors. Specifically, (1) we design a dual-branch aggregation mechanism that fuses global semantic representations with punctuation-enhanced boundary features, preserving the core semantic structure while introducing almost no additional computational overhead; (2) we introduce an extreme-sparsity-adaptive training and inference strategy that stabilizes model behavior under very low token activation ratios; Extensive experiments on general benchmarks and long-context evaluations demonstrate that PHSA consistently outperforms dense attention and state-of-the-art sparse attention baselines, including InfLLM v2. Specifically, for the 0.6B-parameter model with 32k-token input sequences, PHSA can reduce the information loss by 10.8\% at a sparsity ratio of 97.3\%.

Punctuation-aware Hybrid Trainable Sparse Attention for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册