A Decomposition Perspective to Long-context Reasoning for LLMs

作者: Yanling Xiao, Huaibing Xie, Guoliang Zhao, Shihan Dou, Shaolei Wang, Yiting Liu, Nantao Zheng, Cheng Zhang, Pluto Zhou, Zhisong Zhang, Lemao Liu

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-04-09

💡 一句话要点

提出长文本推理分解方法，通过强化学习提升LLM在原子技能上的表现，进而增强长文本推理能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长文本推理 大型语言模型 原子技能 强化学习 伪数据生成 任务分解 知识推理

📋 核心要点

现有长文本推理研究通常忽略任务本身的复杂性，缺乏对模型内部能力的细致分析。
论文将长文本推理分解为原子技能，并利用伪数据和强化学习提升模型在这些技能上的表现。
实验表明，该方法在多个长文本推理基准测试中显著优于现有基线，平均提升7.7%。

📝 摘要（中文）

长文本推理对于复杂的现实应用至关重要，但对于大型语言模型（LLMs）来说仍然是一个重大挑战。尽管长文本推理领域发展迅速，但当前的研究往往忽略了长文本推理任务本身的内部复杂性。本文超越了这种整体视角，将长文本推理分解为一组基本的原子技能，然后自动合成一套伪数据集，每个数据集都明确针对特定的原子技能。我们的实证分析证实，精通这些原子技能与一般的长文本推理性能密切相关。基于这一洞察，我们在这些伪数据集上采用强化学习来提高模型的原子技能，希望以此来提升其一般的长文本推理能力。在多个基准测试中进行的大量实验证明了我们方法的有效性：它优于一个强大的基线，在Loogle、Loong、LongBench-v2、BrowscompLong、Ruler-qa2和MRCR上平均提高了7.7%（从46.3%提高到54.0%）。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在长文本推理任务中表现不佳的问题。现有方法通常将长文本推理视为一个整体，忽略了其内部的复杂性，导致模型难以有效学习和应用相关知识。这种整体性的处理方式使得模型难以针对性地提升特定能力，从而限制了其在复杂应用中的表现。

核心思路：论文的核心思路是将长文本推理任务分解为一系列更小的、更易于管理的“原子技能”。通过针对性地训练模型掌握这些原子技能，可以有效提升其整体的长文本推理能力。这种分解的思路类似于“分而治之”，将复杂问题分解为简单子问题，从而降低学习难度。

技术框架：整体框架包含以下几个主要步骤：1) 原子技能分解：将长文本推理任务分解为一系列基本的原子技能，例如信息检索、逻辑推理、数值计算等。2) 伪数据生成：针对每个原子技能，自动生成相应的伪数据集，用于训练模型。3) 强化学习训练：使用强化学习算法，在伪数据集上训练模型，使其掌握各种原子技能。4) 整体性能评估：在真实的长文本推理数据集上评估模型的整体性能。

关键创新：论文的关键创新在于提出了长文本推理的分解视角，并设计了相应的伪数据生成和强化学习训练方法。与现有方法相比，该方法能够更有效地提升模型在长文本推理任务中的表现。通过将复杂任务分解为原子技能，可以更好地理解模型的内部工作机制，并针对性地进行优化。

关键设计：在伪数据生成方面，论文设计了一系列规则和模板，用于自动生成针对不同原子技能的训练数据。在强化学习训练方面，论文采用了策略梯度算法，并设计了相应的奖励函数，以鼓励模型学习掌握各种原子技能。具体的参数设置和网络结构细节在论文中进行了详细描述，但此处无法完全复述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在多个长文本推理基准测试中取得了显著的性能提升。具体而言，在Loogle、Loong、LongBench-v2、BrowscompLong、Ruler-qa2和MRCR等数据集上，该方法相比于一个强大的基线，平均提高了7.7%（从46.3%提高到54.0%）。这些结果表明，通过分解长文本推理任务并针对性地训练原子技能，可以有效提升LLM的整体推理能力。

🎯 应用场景

该研究成果可广泛应用于需要长文本推理能力的领域，例如智能问答系统、文档摘要生成、信息检索和知识图谱构建等。通过提升LLM的长文本推理能力，可以使其更好地理解和处理复杂的文本信息，从而为用户提供更准确、更高效的服务。此外，该方法还可以应用于其他类型的复杂推理任务，具有一定的通用性。

📄 摘要（原文）

Long-context reasoning is essential for complex real-world applications, yet remains a significant challenge for Large Language Models (LLMs). Despite the rapid evolution in long-context reasoning, current research often overlooks the internal complexity of the long-context reasoning task itself. In this paper, we move beyond this holistic view and decompose long-context reasoning into a set of fundamental atomic skills, and we then automatically synthesize a suite of pseudo datasets, each explicitly targeting a specific atomic skill. Our empirical analysis confirms that proficiency in these atomic skills is strongly correlated with general long-text reasoning performance. Building on this insight, we employ reinforcement learning on these pseudo datasets to sharpen the model's atomic skills, in the hope of boosting its general long-context reasoning ability. Extensive experiments across multiple benchmarks demonstrate the effectiveness of our approach: it outperforms a strong baseline by an average margin of 7.7\% (improving from 46.3\% to 54.0\%) across Loogle, Loong, LongBench-v2, BrowscompLong, Ruler-qa2, and MRCR.

A Decomposition Perspective to Long-context Reasoning for LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理