Scaling Instruction-Tuned LLMs to Million-Token Contexts via Hierarchical Synthetic Data Generation

作者: Linda He, Jue Wang, Maurice Weber, Shang Zhu, Ben Athiwaratkun, Ce Zhang

分类: cs.CL, cs.AI

发布日期: 2025-04-17

备注: 26 pages, 5 figures

💡 一句话要点

提出基于分层合成数据生成的大语言模型长文本扩展方法，实现百万token上下文处理。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长文本处理 大语言模型 合成数据生成 上下文扩展 指令调优

📋 核心要点

现有LLM在处理长文本时面临计算复杂度和数据稀缺的双重挑战，限制了其长文本推理能力。
论文提出一种基于分层合成数据生成的方法，通过后训练扩展LLM的上下文窗口，同时保持其通用性能。
实验结果表明，该模型在RULER和InfiniteBench等长文本基准测试中表现良好，并保持了通用语言任务的性能。

📝 摘要（中文）

大型语言模型(LLMs)在长文本推理方面面临挑战，这不仅是因为计算复杂度随序列长度呈二次方增长，还因为长文本数据的稀缺和标注成本高昂。目前几乎没有开源工作系统地研究长文本数据，也没有超过100K tokens的开放指令调优数据集。为了弥补这一差距，我们提出了一种新颖的后训练合成数据生成策略，旨在高效地扩展LLMs的上下文窗口，同时保持其通用任务性能。我们的方法可以扩展到任意长度的上下文，不受可用真实世界数据长度的限制，有效解决了原始长文本数据稀缺的问题。通过逐步旋转位置嵌入(RoPE)缩放训练策略，我们证明了我们的模型，具有高达1M tokens的上下文长度，在RULER基准和InfiniteBench上表现良好，并在通用语言任务上保持了稳健的性能。

🔬 方法详解

问题定义：现有的大语言模型在处理长文本时面临两个主要问题。一是计算复杂度随着序列长度的增加呈平方级增长，导致训练和推理成本高昂。二是高质量的长文本数据稀缺，且标注成本很高，限制了模型在长文本上的训练效果。现有的开源工作缺乏对长文本数据的系统性研究，并且缺乏超过100K tokens的开放指令调优数据集。

核心思路：论文的核心思路是通过合成数据生成来解决长文本数据稀缺的问题。具体来说，该方法通过一种分层的方式生成长文本数据，并利用这些数据对LLM进行后训练，从而扩展其上下文窗口。这种方法可以扩展到任意长度的上下文，不受真实世界数据长度的限制。

技术框架：该方法主要包含两个阶段：合成数据生成和模型训练。在合成数据生成阶段，首先定义一系列任务，然后使用LLM生成这些任务的输入和输出。为了保证数据的质量，采用分层的方式生成数据，即先生成短文本数据，然后将这些短文本数据组合成更长的文本数据。在模型训练阶段，使用生成的合成数据对LLM进行后训练，采用逐步旋转位置嵌入(RoPE)缩放训练策略，逐步扩展模型的上下文窗口。

关键创新：该方法最重要的创新点在于提出了一种可扩展的合成数据生成策略，可以有效地解决长文本数据稀缺的问题。与现有的方法相比，该方法不需要依赖真实世界的数据，可以生成任意长度的文本数据，并且可以控制数据的质量。

关键设计：在合成数据生成阶段，采用了分层生成的方式，先生成短文本数据，然后将这些短文本数据组合成更长的文本数据。在模型训练阶段，采用了逐步旋转位置嵌入(RoPE)缩放训练策略，逐步扩展模型的上下文窗口。具体来说，首先使用较短的上下文窗口训练模型，然后逐步增加上下文窗口的长度，直到达到目标长度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该模型在RULER基准和InfiniteBench上表现良好，证明了其在长文本处理方面的有效性。具体来说，该模型能够处理高达1M tokens的上下文长度，并在通用语言任务上保持了稳健的性能。这些结果表明，该方法可以有效地扩展LLM的上下文窗口，同时保持其通用性能。

🎯 应用场景

该研究成果可应用于需要处理长文本的各种场景，例如长篇文档摘要、长对话生成、长代码理解等。通过扩展LLM的上下文窗口，可以使其更好地理解和处理长文本信息，从而提高相关任务的性能。该研究对于推动LLM在实际应用中的发展具有重要意义。

📄 摘要（原文）

Large Language Models (LLMs) struggle with long-context reasoning, not only due to the quadratic scaling of computational complexity with sequence length but also because of the scarcity and expense of annotating long-context data. There has been barely any open-source work that systematically ablates long-context data, nor is there any openly available instruction tuning dataset with contexts surpassing 100K tokens. To bridge this gap, we introduce a novel post-training synthetic data generation strategy designed to efficiently extend the context window of LLMs while preserving their general task performance. Our approach scalably extends to arbitrarily long context lengths, unconstrained by the length of available real-world data, which effectively addresses the scarcity of raw long-context data. Through a step-by-step rotary position embedding (RoPE) scaling training strategy, we demonstrate that our model, with a context length of up to 1M tokens, performs well on the RULER benchmark and InfiniteBench and maintains robust performance on general language tasks.

Scaling Instruction-Tuned LLMs to Million-Token Contexts via Hierarchical Synthetic Data Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理