Remember to Forget: Gated Adaptive Positional Encoding
作者: Riccardo Ali, Alessio Borgi, Christopher Irwin, Mario Severino, Pietro Liò
分类: cs.LG
发布日期: 2026-05-11
💡 一句话要点
提出GAPE门控自适应位置编码,通过内容感知机制解决长文本外推中的注意力退化问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 位置编码 长上下文建模 注意力机制 旋转位置编码 序列外推
📋 核心要点
- RoPE在处理超长序列时,旋转相位进入OOD区域,导致注意力机制出现虚假对齐与性能退化。
- GAPE通过引入查询与键依赖的门控机制,在保持旋转几何特性的同时,实现对无关上下文的动态抑制。
- 实验证明GAPE在长文本检索任务中表现优异,能有效提升注意力分布的锐度并增强长上下文鲁棒性。
📝 摘要(中文)
旋转位置编码(RoPE)在现代大语言模型中应用广泛,但在处理超出训练长度的序列时,旋转相位会进入分布外(OOD)区域,导致虚假的远程对齐、注意力弥散及检索性能下降。现有补救措施往往以牺牲局部位置分辨率为代价换取长上下文稳定性。为此,本文提出了GAPE(门控自适应位置编码),这是一种可直接嵌入的位置编码增强方案。GAPE在保持旋转几何结构的同时,将内容感知偏置引入注意力Logits。通过查询依赖门控压缩无关上下文,并利用键依赖门控保留显著的远程Token,GAPE实现了距离抑制与Token重要性的解耦。理论证明了受保护Token的可访问性,且非受保护的远程Token注意力权重会随查询门控衰减。实验表明,GAPE在合成检索及长上下文基准测试中均优于RoPE基线,显著提升了注意力机制的锐度与长文本鲁棒性。
🔬 方法详解
问题定义:RoPE在处理超出训练长度的序列时,旋转相位发生偏移,导致模型无法准确捕捉远程依赖,表现为注意力分布弥散,进而引发检索失败和长文本理解能力下降。
核心思路:引入内容感知偏置,将位置编码与Token语义重要性解耦。通过门控机制动态调节注意力权重,在抑制无关远程信息的同时,确保关键信息的有效传递。
技术框架:GAPE作为一种即插即用的增强模块,集成在标准缩放点积注意力(Scaled Dot-Product Attention)中。它包含两个核心门控:查询依赖门控(Query-dependent gate)用于全局上下文压缩,键依赖门控(Key-dependent gate)用于识别并保护显著的远程Token。
关键创新:核心创新在于将“距离衰减”与“语义重要性”解耦。不同于传统的线性或指数衰减方法,GAPE允许模型根据当前查询的内容,自适应地决定哪些远程Token需要被抑制,哪些需要被保留。
关键设计:GAPE通过在注意力Logits中添加一个门控偏置项实现。该偏置项由查询向量和键向量的投影计算得出,确保了在不破坏RoPE旋转几何结构的前提下,实现对注意力分数的动态加权与过滤。
🖼️ 关键图片
📊 实验亮点
实验结果显示,GAPE在合成检索任务中显著优于标准RoPE及现有的外推方法。在长上下文基准测试中,GAPE不仅提升了检索准确率,还通过更锐利的注意力分布有效缓解了长序列中的信息弥散问题,在保持计算效率的同时实现了性能的稳健提升。
🎯 应用场景
该技术适用于需要处理超长文档、长篇代码库分析以及复杂多轮对话的大语言模型。其在保持局部精度的同时提升长文本鲁棒性的特性,使其在法律文档审查、长篇小说创作及大规模知识库检索等对上下文窗口要求极高的领域具有显著应用价值。
📄 摘要(原文)
Rotary Positional Encoding (RoPE) is widely used in modern large language models. However, when sequences are extended beyond the range seen during training, rotary phases can enter out-of-distribution regimes, leading to spurious long-range alignments, diffuse attention, and degraded retrieval. Existing remedies only partially address these failures, as they often trade local positional resolution for long-context stability. We propose GAPE (Gated Adaptive Positional Encoding), a drop-in augmentation for positional encodings that introduces a content-aware bias directly into the attention logits while preserving the rotary geometry. GAPE decouples distance-based suppression from token importance through a query-dependent gate that contracts irrelevant context and a key-dependent gate that preserves salient distant tokens. We prove that protected tokens remain accessible, while the attention mass assigned to unprotected distant tokens decays as a function of the query gate. We further show that GAPE can be implemented within standard scaled dot-product attention. We validate these properties empirically, finding that GAPE consistently yields sharper attention and improved long-context robustness over rotary baselines across both synthetic retrieval and long-context benchmarks.