A Decomposition Perspective to Long-context Reasoning for LLMs
作者: Yanling Xiao, Huaibing Xie, Guoliang Zhao, Shihan Dou, Shaolei Wang, Yiting Liu, Nantao Zheng, Cheng Zhang, Pluto Zhou, Zhisong Zhang, Lemao Liu
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-04-09
💡 一句话要点
提出长文本推理分解方法,通过强化学习提升LLM在原子技能上的表现,进而增强长文本推理能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长文本推理 大型语言模型 原子技能 强化学习 伪数据生成 任务分解 知识推理
📋 核心要点
- 现有长文本推理研究通常忽略任务本身的复杂性,缺乏对模型内部能力的细致分析。
- 论文将长文本推理分解为原子技能,并利用伪数据和强化学习提升模型在这些技能上的表现。
- 实验表明,该方法在多个长文本推理基准测试中显著优于现有基线,平均提升7.7%。
📝 摘要(中文)
长文本推理对于复杂的现实应用至关重要,但对于大型语言模型(LLMs)来说仍然是一个重大挑战。尽管长文本推理领域发展迅速,但当前的研究往往忽略了长文本推理任务本身的内部复杂性。本文超越了这种整体视角,将长文本推理分解为一组基本的原子技能,然后自动合成一套伪数据集,每个数据集都明确针对特定的原子技能。我们的实证分析证实,精通这些原子技能与一般的长文本推理性能密切相关。基于这一洞察,我们在这些伪数据集上采用强化学习来提高模型的原子技能,希望以此来提升其一般的长文本推理能力。在多个基准测试中进行的大量实验证明了我们方法的有效性:它优于一个强大的基线,在Loogle、Loong、LongBench-v2、BrowscompLong、Ruler-qa2和MRCR上平均提高了7.7%(从46.3%提高到54.0%)。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在长文本推理任务中表现不佳的问题。现有方法通常将长文本推理视为一个整体,忽略了其内部的复杂性,导致模型难以有效学习和应用相关知识。这种整体性的处理方式使得模型难以针对性地提升特定能力,从而限制了其在复杂应用中的表现。
核心思路:论文的核心思路是将长文本推理任务分解为一系列更小的、更易于管理的“原子技能”。通过针对性地训练模型掌握这些原子技能,可以有效提升其整体的长文本推理能力。这种分解的思路类似于“分而治之”,将复杂问题分解为简单子问题,从而降低学习难度。
技术框架:整体框架包含以下几个主要步骤:1) 原子技能分解:将长文本推理任务分解为一系列基本的原子技能,例如信息检索、逻辑推理、数值计算等。2) 伪数据生成:针对每个原子技能,自动生成相应的伪数据集,用于训练模型。3) 强化学习训练:使用强化学习算法,在伪数据集上训练模型,使其掌握各种原子技能。4) 整体性能评估:在真实的长文本推理数据集上评估模型的整体性能。
关键创新:论文的关键创新在于提出了长文本推理的分解视角,并设计了相应的伪数据生成和强化学习训练方法。与现有方法相比,该方法能够更有效地提升模型在长文本推理任务中的表现。通过将复杂任务分解为原子技能,可以更好地理解模型的内部工作机制,并针对性地进行优化。
关键设计:在伪数据生成方面,论文设计了一系列规则和模板,用于自动生成针对不同原子技能的训练数据。在强化学习训练方面,论文采用了策略梯度算法,并设计了相应的奖励函数,以鼓励模型学习掌握各种原子技能。具体的参数设置和网络结构细节在论文中进行了详细描述,但此处无法完全复述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在多个长文本推理基准测试中取得了显著的性能提升。具体而言,在Loogle、Loong、LongBench-v2、BrowscompLong、Ruler-qa2和MRCR等数据集上,该方法相比于一个强大的基线,平均提高了7.7%(从46.3%提高到54.0%)。这些结果表明,通过分解长文本推理任务并针对性地训练原子技能,可以有效提升LLM的整体推理能力。
🎯 应用场景
该研究成果可广泛应用于需要长文本推理能力的领域,例如智能问答系统、文档摘要生成、信息检索和知识图谱构建等。通过提升LLM的长文本推理能力,可以使其更好地理解和处理复杂的文本信息,从而为用户提供更准确、更高效的服务。此外,该方法还可以应用于其他类型的复杂推理任务,具有一定的通用性。
📄 摘要(原文)
Long-context reasoning is essential for complex real-world applications, yet remains a significant challenge for Large Language Models (LLMs). Despite the rapid evolution in long-context reasoning, current research often overlooks the internal complexity of the long-context reasoning task itself. In this paper, we move beyond this holistic view and decompose long-context reasoning into a set of fundamental atomic skills, and we then automatically synthesize a suite of pseudo datasets, each explicitly targeting a specific atomic skill. Our empirical analysis confirms that proficiency in these atomic skills is strongly correlated with general long-text reasoning performance. Building on this insight, we employ reinforcement learning on these pseudo datasets to sharpen the model's atomic skills, in the hope of boosting its general long-context reasoning ability. Extensive experiments across multiple benchmarks demonstrate the effectiveness of our approach: it outperforms a strong baseline by an average margin of 7.7\% (improving from 46.3\% to 54.0\%) across Loogle, Loong, LongBench-v2, BrowscompLong, Ruler-qa2, and MRCR.