Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs
作者: Xiaoran Liu, Yuerong Song, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Zhaoxiang Liu, Shiguo Lian, Ziwei He, Xipeng Qiu
分类: cs.CL
发布日期: 2025-12-08
备注: 20 pages, 6 figures, under review
🔗 代码/项目: GITHUB
💡 一句话要点
扩展旋转位置编码RoPE的虚部,提升长文本LLM的建模能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 旋转位置编码 长文本建模 大型语言模型 注意力机制 复数域 位置编码扩展 RoPE 长程依赖
📋 核心要点
- 现有RoPE方法仅使用复值点积的实部,忽略了包含重要相位信息的虚部,导致长文本建模中关系细节的损失。
- 该论文提出一种扩展方法,重新利用RoPE中被丢弃的虚部,构建双分量注意力分数,从而保留更多位置信息。
- 实验结果表明,该方法在长文本建模任务上始终优于标准RoPE,且随着上下文长度增加,性能提升更加明显。
📝 摘要(中文)
旋转位置编码(RoPE)已成为大型语言模型(LLM)中编码序列顺序的标准方法,它通过在复平面上对查询和键向量进行旋转来实现。然而,标准实现仅使用复值点积的实部来计算注意力分数。这种简化丢弃了包含有价值相位信息的虚部,导致关系细节的潜在损失,这对于建模长上下文依赖关系至关重要。在本文中,我们提出了一种扩展方法,重新整合了这种被丢弃的虚部。我们的方法利用完整的复值表示来创建双分量注意力分数。我们从理论上和经验上证明,这种方法通过保留更多的位置信息来增强长上下文依赖关系的建模。此外,在一套长上下文语言建模基准上的评估表明,我们的方法始终优于标准RoPE,并且随着上下文长度的增加,优势变得更加显著。代码可在https://github.com/OpenMOSS/rope_pp获取。
🔬 方法详解
问题定义:现有RoPE方法在计算注意力分数时,仅使用了复数域旋转后的实部,忽略了虚部所包含的相位信息。这导致在长文本建模中,模型无法充分捕捉token之间的相对位置关系,从而限制了模型对长距离依赖关系的建模能力。
核心思路:论文的核心思路是重新引入RoPE中被忽略的虚部信息,将其与实部信息结合,共同参与注意力分数的计算。通过保留完整的复数信息,模型能够更准确地捕捉token之间的相对位置关系,从而提升长文本建模能力。
技术框架:该方法对现有的RoPE进行扩展,主要流程如下:1) 使用标准的RoPE对query和key向量进行旋转;2) 计算旋转后query和key向量的复数点积,得到实部和虚部;3) 将实部和虚部作为两个独立的注意力分量,共同参与最终注意力分数的计算。整体架构与标准RoPE基本一致,仅在注意力分数计算阶段进行了修改。
关键创新:该论文的关键创新在于重新利用了RoPE中被忽略的虚部信息。通过将虚部信息纳入注意力分数的计算,模型能够更全面地利用位置编码信息,从而提升长文本建模能力。与现有方法相比,该方法在不增加计算复杂度的前提下,显著提升了模型性能。
关键设计:论文中并没有明确说明具体的参数设置或损失函数修改。关键在于如何将实部和虚部信息进行有效融合。一种可能的设计是将实部和虚部作为两个独立的通道,通过一个可学习的线性层进行融合,得到最终的注意力分数。具体融合方式和权重分配可能需要根据实际任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在长文本语言建模基准测试中始终优于标准RoPE。随着上下文长度的增加,性能提升更加显著,证明了该方法在建模长距离依赖关系方面的有效性。具体性能数据和提升幅度在论文中进行了详细展示,表明该方法具有实际应用价值。
🎯 应用场景
该研究成果可广泛应用于需要处理长文本序列的自然语言处理任务中,例如长文档摘要、长文本问答、代码生成等。通过提升模型对长距离依赖关系的建模能力,可以显著改善这些任务的性能。此外,该方法还可以应用于其他领域,例如基因组序列分析、时间序列预测等,只要这些任务需要对序列中的位置信息进行建模。
📄 摘要(原文)
Rotary Position Embeddings (RoPE) have become a standard for encoding sequence order in Large Language Models (LLMs) by applying rotations to query and key vectors in the complex plane. Standard implementations, however, utilize only the real component of the complex-valued dot product for attention score calculation. This simplification discards the imaginary component, which contains valuable phase information, leading to a potential loss of relational details crucial for modeling long-context dependencies. In this paper, we propose an extension that re-incorporates this discarded imaginary component. Our method leverages the full complex-valued representation to create a dual-component attention score. We theoretically and empirically demonstrate that this approach enhances the modeling of long-context dependencies by preserving more positional information. Furthermore, evaluations on a suite of long-context language modeling benchmarks show that our method consistently improves performance over the standard RoPE, with the benefits becoming more significant as context length increases. The code is available at https://github.com/OpenMOSS/rope_pp.