LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards

📄 arXiv: 2605.31584v1 📥 PDF

作者: Nianyi Lin, Jiajie Zhang, Lei Hou, Juanzi Li

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-05-29

🔗 代码/项目: GITHUB


💡 一句话要点

提出LongTraceRL,利用搜索轨迹和规则奖励学习长文本推理,提升LLM在复杂上下文中的信息整合能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长文本推理 强化学习 知识图谱 规则奖励 搜索代理

📋 核心要点

  1. 现有方法在长文本推理中,面临干扰项迷惑性低和奖励信号稀疏的问题,无法有效监督中间推理步骤。
  2. LongTraceRL利用搜索代理轨迹构建分层干扰项,并设计规则奖励来监督推理过程,从而提升模型性能。
  3. 实验结果表明,LongTraceRL在多个长文本基准测试中优于现有方法,并鼓励模型进行更全面的推理。

📝 摘要(中文)

大型语言模型在长文本推理方面面临挑战,难以在大量干扰信息中定位和整合关键信息。本文提出LongTraceRL,旨在解决这一问题。在数据构建方面,通过知识图谱随机游走生成多跳问题,并利用搜索代理轨迹构建分层干扰项:代理阅读但未引用的文档(高迷惑性)和出现在搜索结果中但从未打开的文档(低迷惑性),从而产生比随机抽样或一次性搜索更具挑战性的训练上下文。在奖励设计方面,提出了一种规则奖励,使用推理链中的黄金实体作为细粒度的实体级别过程监督。该规则奖励仅应用于具有正确最终答案的响应(正向策略),区分正确响应中的推理质量,并防止奖励利用。在五个长文本基准测试中,对三种推理LLM(4B-30B)的实验表明,LongTraceRL始终优于强大的基线,并鼓励全面、基于证据的推理。代码、数据集和模型可在https://github.com/THU-KEG/LongTraceRL 获取。

🔬 方法详解

问题定义:现有的大型语言模型在处理长文本推理任务时,难以有效地从大量分散的文本信息中提取和整合关键信息。现有的强化学习方法通常使用低迷惑性的干扰项,并且奖励信号稀疏,仅关注最终结果,无法对中间推理步骤进行有效监督,导致模型难以学习到正确的推理路径。

核心思路:LongTraceRL的核心思路是通过构建更具挑战性的训练数据和设计更细粒度的奖励函数来提升模型在长文本推理中的能力。具体来说,通过模拟搜索代理的轨迹来生成更真实的干扰项,并使用规则奖励来监督推理过程中的关键实体识别,从而引导模型学习到正确的推理路径。

技术框架:LongTraceRL的整体框架包括数据构建和奖励设计两个主要部分。数据构建阶段,首先通过知识图谱随机游走生成多跳问题,然后利用搜索代理的轨迹来构建分层干扰项,包括高迷惑性的已读未引用文档和低迷惑性的未打开文档。奖励设计阶段,提出了一种规则奖励,该奖励基于推理链中的黄金实体,对每个推理步骤进行细粒度的监督。该奖励仅应用于最终答案正确的响应,以区分不同推理质量的正确答案,并防止模型通过其他方式获得高奖励。

关键创新:LongTraceRL的关键创新在于以下两点:一是提出了基于搜索代理轨迹的分层干扰项构建方法,使得训练数据更具挑战性,更贴近实际应用场景;二是设计了基于规则的奖励函数,能够对推理过程进行细粒度的监督,从而引导模型学习到正确的推理路径。

关键设计:在数据构建方面,关键在于如何模拟搜索代理的轨迹,以及如何选择合适的文档作为干扰项。在奖励设计方面,关键在于如何定义规则,以及如何将规则转化为可计算的奖励信号。论文采用了一种正向策略,即只对最终答案正确的响应进行奖励,以避免奖励利用。具体的参数设置和网络结构等技术细节在论文中进行了详细描述,此处不再赘述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LongTraceRL在五个长文本基准测试中取得了显著的性能提升。实验结果表明,LongTraceRL始终优于强大的基线模型,并且能够鼓励模型进行更全面、基于证据的推理。例如,在某些基准测试中,LongTraceRL的性能提升幅度超过了10%。这些结果表明,LongTraceRL是一种有效的长文本推理方法。

🎯 应用场景

LongTraceRL具有广泛的应用前景,例如在问答系统、信息检索、知识图谱推理等领域。它可以帮助模型更好地理解长文本信息,从而提高问答的准确性和信息检索的效率。此外,LongTraceRL还可以应用于智能客服、金融风控等领域,帮助模型更好地理解用户需求和识别潜在风险。

📄 摘要(原文)

Long-context reasoning remains a central challenge for large language models, which often fail to locate and integrate key information in extensive distracting content. Reinforcement learning with verifiable rewards (RLVR) has shown promise for this task, yet existing methods are limited by low-confusability distractors and sparse, outcome-only reward signals that cannot supervise intermediate reasoning steps. To address these issues, we introduce \textsc{LongTraceRL}. For data construction, we generate multi-hop questions via knowledge graph random walks and leverage search agent trajectories to build \emph{tiered distractors}: documents the agent read but did not cite (high confusability) and documents that appeared in search results but were never opened (low confusability), producing training contexts that are far more challenging than those built by random sampling or one-shot search. For reward design, we propose a \emph{rubric reward} that uses the gold entities along each reasoning chain as fine-grained, entity-level process supervision. This rubric reward is applied only to responses with correct final answers (positive-only strategy), distinguishing the reasoning quality among correct responses and preventing reward hacking. Experiments on three reasoning LLMs (4B--30B) across five long-context benchmarks demonstrate that \textsc{LongTraceRL} consistently outperforms strong baselines and encourages comprehensive, evidence-grounded reasoning. Codes, datasets and models are available at \href{https://github.com/THU-KEG/LongTraceRL}{https://github.com/THU-KEG/LongTraceRL}.