EndPrompt: Efficient Long-Context Extension via Terminal Anchoring
作者: Han Tian, Luxuan Chen, Xinran Chen, Rui Kong, Fang Wang, Jiamin Chen, Jinman Zhao, Yuchen Li, Jiashu Zhao, Shuaiqiang Wang, Haoyi Xiong, Dawei Yin
分类: cs.CL
发布日期: 2026-05-14
🔗 代码/项目: GITHUB
💡 一句话要点
EndPrompt:通过末端锚定的高效长文本扩展方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长文本扩展 上下文窗口 大型语言模型 位置编码 高效训练
📋 核心要点
- 现有长文本扩展方法计算成本高昂,难以复现,主要因为需要在目标长度的序列上进行训练。
- EndPrompt通过保留原始短上下文并附加末端提示,在短序列中引入长程相对位置信息,实现高效扩展。
- 实验表明,EndPrompt在扩展LLaMA模型上下文窗口时,性能超越现有方法,且计算成本显著降低。
📝 摘要(中文)
扩展大型语言模型的上下文窗口通常需要在目标长度的序列上进行训练,这会产生二次方的内存和计算成本,使得长上下文适应既昂贵又难以重现。我们提出了EndPrompt,一种仅使用短训练序列即可实现有效上下文扩展的方法。核心思想是,让模型接触到长程相对位置距离并不需要构建完整长度的输入:我们保留原始的短上下文作为一个完整的第一个片段,并附加一个简短的末端提示作为第二个片段,为其分配接近目标上下文长度的位置索引。这种两段式结构在短物理序列中引入了局部和长程相对距离,同时保持了训练文本的语义连续性——这是基于块的模拟方法所不具备的,后者会分割连续的上下文。我们基于旋转位置嵌入和伯恩斯坦不等式提供了理论分析,表明位置插值在注意力函数上施加了严格的平滑约束,而共享的Transformer参数进一步抑制了对未观察到的中间距离的不稳定外推。应用于将LLaMA系列模型的上下文窗口从8K扩展到64K,EndPrompt实现了76.03的平均RULER分数和LongBench上的最高平均分,超过了LCEG(72.24)、LongLoRA(72.95)和全长微调(69.23),同时需要的计算量大大减少。这些结果表明,长上下文泛化可以从稀疏的位置监督中诱导出来,挑战了认为可靠的上下文窗口扩展需要密集的长序列训练的普遍假设。
🔬 方法详解
问题定义:现有长文本扩展方法,如直接在长序列上进行微调,面临着巨大的计算和内存开销,使得训练成本高昂,难以复现。此外,简单地将长文本分割成块进行训练,会破坏文本的语义连续性,影响模型性能。
核心思路:EndPrompt的核心在于,模型学习长程位置信息并不需要完整的长序列。通过巧妙地构造一个包含原始短上下文和末端提示的两段式结构,并在末端提示中赋予接近目标上下文长度的位置索引,模型可以在短序列上学习到长程位置关系,同时保持语义连续性。
技术框架:EndPrompt方法主要包含以下步骤:1. 保留原始的短上下文序列。2. 在原始序列后附加一个简短的末端提示。3. 为末端提示分配接近目标上下文长度的位置索引。4. 使用该构造的序列进行训练。整个过程利用标准的Transformer架构,无需修改模型结构。
关键创新:EndPrompt的关键创新在于,它挑战了长文本扩展必须依赖密集长序列训练的传统观念。通过稀疏的位置监督,即仅在末端提示中引入长程位置信息,即可有效实现长文本扩展。这种方法显著降低了计算成本,并保持了训练数据的语义连续性。
关键设计:EndPrompt的关键设计包括:1. 末端提示的长度需要适当选择,以平衡计算成本和位置信息的覆盖范围。2. 位置索引的分配策略,确保末端提示的位置索引接近目标上下文长度,从而引导模型学习长程位置关系。3. 损失函数采用标准的语言模型损失函数,无需特殊设计。
🖼️ 关键图片
📊 实验亮点
EndPrompt在将LLaMA系列模型的上下文窗口从8K扩展到64K的实验中,取得了显著的性能提升。在LongBench基准测试中,EndPrompt取得了最高的平均分,超过了LCEG、LongLoRA和全长微调等方法。具体来说,EndPrompt的平均RULER分数为76.03,显著优于LCEG(72.24)、LongLoRA(72.95)和全长微调(69.23)。这些结果表明,EndPrompt是一种高效且有效的长文本扩展方法。
🎯 应用场景
EndPrompt方法可广泛应用于需要处理长文本的自然语言处理任务中,例如长文档摘要、长篇小说生成、代码生成等。该方法降低了长文本扩展的计算成本,使得更大规模的语言模型能够处理更长的上下文,从而提升模型在这些任务上的性能。此外,该方法还可以应用于低资源场景,通过少量数据即可实现长文本扩展。
📄 摘要(原文)
Extending the context window of large language models typically requires training on sequences at the target length, incurring quadratic memory and computational costs that make long-context adaptation expensive and difficult to reproduce. We propose EndPrompt, a method that achieves effective context extension using only short training sequences. The core insight is that exposing a model to long-range relative positional distances does not require constructing full-length inputs: we preserve the original short context as an intact first segment and append a brief terminal prompt as a second segment, assigning it positional indices near the target context length. This two-segment construction introduces both local and long-range relative distances within a short physical sequence while maintaining the semantic continuity of the training text--a property absent in chunk-based simulation approaches that split contiguous context. We provide a theoretical analysis grounded in Rotary Position Embedding and the Bernstein inequality, showing that position interpolation induces a rigorous smoothness constraint over the attention function, with shared Transformer parameters further suppressing unstable extrapolation to unobserved intermediate distances. Applied to LLaMA-family models extending the context window from 8K to 64K, EndPrompt achieves an average RULER score of 76.03 and the highest average on LongBench, surpassing LCEG (72.24), LongLoRA (72.95), and full-length fine-tuning (69.23) while requiring substantially less computation. These results demonstrate that long-context generalization can be induced from sparse positional supervision, challenging the prevailing assumption that dense long-sequence training is necessary for reliable context-window extension. The code is available at https://github.com/clx1415926/EndPrompt.