DCIS: Efficient Length Extrapolation of LLMs via Divide-and-Conquer Scaling Factor Search

📄 arXiv: 2412.18811v2 📥 PDF

作者: Lei Yang, Shaoyang Xu, Jianxiang Peng, Shaolin Zhu, Deyi Xiong

分类: cs.CL

发布日期: 2024-12-25 (更新: 2025-11-22)

备注: EMNLP 2025 Main


💡 一句话要点

提出DCIS算法,通过分治策略搜索RoPE缩放因子,高效扩展LLM上下文长度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 上下文长度扩展 RoPE 缩放因子搜索 分治算法 微调 Transformer

📋 核心要点

  1. 现有方法在扩展LLM上下文长度时,RoPE缩放因子初始化不佳,导致微调成本高,性能下降。
  2. 论文提出DCIS算法,采用分治策略增量搜索更优的RoPE缩放因子,无需复杂的初始化。
  3. 实验表明,DCIS能有效扩展LLM上下文长度,降低微调成本,且缩放因子无需微调即可生效。

📝 摘要(中文)

基于Transformer架构的大语言模型(LLMs)通常因高昂的训练成本而限制了上下文长度。最近的研究通过调整RoPE的缩放因子并进行微调来扩展上下文窗口。然而,这些因子次优的初始化会导致微调成本增加和目标长度性能下降。为了解决这些挑战,我们提出了一种新颖的基于RoPE的微调框架,它不同于传统的缩放因子搜索。具体来说,我们提出了一种分治增量搜索(DCIS)算法,该算法策略性地确定更好的缩放因子。利用识别出的缩放因子进行进一步的微调,可以有效地扩展LLMs的上下文窗口。实验结果表明,我们的方法不仅减轻了扩展目标长度时的性能衰减,而且允许模型在短上下文中进行微调并推广到长上下文,从而降低了微调的成本。通过DCIS获得的缩放因子甚至可以在没有微调的情况下有效地执行。对搜索空间的进一步分析表明,DCIS实现了比其他方法高两倍的搜索效率。我们还研究了DCIS中使用的非严格递增缩放因子的影响,并评估了LLMs在各种上下文长度下的通用能力。

🔬 方法详解

问题定义:现有方法在扩展LLM的上下文长度时,依赖于调整RoPE (Rotary Position Embedding) 的缩放因子并进行微调。然而,缩放因子的初始化往往是次优的,导致后续微调过程需要消耗大量的计算资源,并且在目标长度上的性能提升有限,甚至出现性能下降。因此,如何高效地找到合适的RoPE缩放因子,降低微调成本,并保证扩展后的性能,是本文要解决的核心问题。

核心思路:论文的核心思路是采用一种分治增量搜索 (Divide-and-Conquer Incremental Search, DCIS) 算法,策略性地搜索更优的RoPE缩放因子。与传统的直接搜索或随机搜索不同,DCIS通过逐步缩小搜索范围,并利用已搜索到的信息来指导后续搜索,从而提高搜索效率。这种分治策略能够更快地找到合适的缩放因子,从而降低微调成本,并提升扩展后的性能。

技术框架:DCIS框架主要包含以下几个阶段: 1. 初始化:设定初始的缩放因子搜索范围。 2. 分治搜索:将搜索范围划分为多个子区间,并在每个子区间内进行评估。 3. 增量更新:根据评估结果,选择性能最佳的子区间,并将其作为新的搜索范围。 4. 迭代优化:重复分治搜索和增量更新的过程,直到找到满足要求的缩放因子。 5. 微调:使用搜索到的缩放因子对LLM进行微调,以进一步提升性能。

关键创新:DCIS算法的关键创新在于其分治增量搜索策略。与传统的缩放因子搜索方法相比,DCIS能够更高效地探索搜索空间,并更快地找到合适的缩放因子。此外,DCIS允许使用非严格递增的缩放因子,这为RoPE的优化提供了更大的灵活性。

关键设计:DCIS算法的关键设计包括: 1. 分治策略:如何有效地划分搜索范围,以及如何评估每个子区间的性能。 2. 增量更新:如何根据评估结果选择最佳的子区间,以及如何调整搜索范围。 3. 评估指标:选择合适的评估指标来衡量缩放因子的性能,例如perplexity或下游任务的准确率。 4. 非严格递增缩放因子:允许缩放因子在一定范围内波动,以获得更好的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DCIS算法能够有效地扩展LLM的上下文长度,并且降低了微调成本。具体来说,DCIS算法的搜索效率比其他方法高两倍。此外,通过DCIS获得的缩放因子甚至可以在没有微调的情况下有效地执行。实验还验证了DCIS在各种上下文长度下的通用能力。

🎯 应用场景

该研究成果可广泛应用于需要长文本处理的大语言模型应用中,例如长文档摘要、长篇小说生成、代码生成、以及需要理解长上下文的对话系统等。通过降低扩展上下文长度的成本,可以促进LLM在更多实际场景中的应用,并提升用户体验。

📄 摘要(原文)

Large language models (LLMs) based on the Transformer architecture usually have their context length limited due to the high training cost. Recent advancements extend the context window by adjusting the scaling factors of RoPE and fine-tuning. However, suboptimal initialization of these factors results in increased fine-tuning costs and reduced performance at target length. To address these challenges, we propose a novel RoPE-based fine-tuning framework that diverges from conventional scaling factors search. Specifically, we present a \textbf{D}ivide-and-\textbf{C}onquer \textbf{I}ncremental \textbf{S}earch (DCIS) algorithm that strategically determines the better scaling factors. Further fine-tuning with the identified scaling factors effectively extends the context window of LLMs. Empirical results demonstrate that our methodology not only mitigates performance decay at extended target lengths but also allows the model to fine-tune on short contexts and generalize to long contexts, thereby reducing the cost of fine-tuning. The scaling factors obtained through DCIS can even perform effectively without fine-tuning. Further analysis of the search space reveals that DCIS achieves twice the search efficiency compared to other methods. We also examine the impact of the non-strictly increasing scaling factors utilized in DCIS and evaluate the general capabilities of LLMs across various context lengths.