Search-P1: Path-Centric Reward Shaping for Stable and Efficient Agentic RAG Training
作者: Tianle Xia, Ming Xu, Lingxiang Hu, Yiding Sun, Wenwei Li, Linfang Shang, Liqun Liu, Peng Shu, Huan Yu, Jie Jiang
分类: cs.CL, cs.IR, cs.LG
发布日期: 2026-02-28
💡 一句话要点
提出Search-P1框架,通过路径中心奖励塑造提升Agentic RAG训练的稳定性和效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agentic RAG 检索增强生成 强化学习 奖励塑造 路径中心奖励 多步骤推理 知识检索
📋 核心要点
- 现有Agentic RAG训练方法依赖稀疏的结果奖励,忽略了中间推理步骤的信号,导致训练效率低下。
- Search-P1通过路径中心奖励塑造,利用步骤覆盖率和软评分,从成功和失败的推理路径中提取学习信号。
- 实验结果表明,Search-P1在多个问答基准测试中显著优于现有方法,平均准确率提升了7.7个百分点。
📝 摘要(中文)
检索增强生成(RAG)通过整合外部知识来增强大型语言模型(LLM)的能力。然而,传统的单轮检索在复杂的多步骤推理中表现不足。Agentic RAG通过使LLM能够动态决定何时以及检索什么来解决这个问题,但目前基于强化学习的训练方法受到稀疏结果奖励的限制,这些奖励丢弃了中间信号,并且样本效率低下,失败的样本没有任何贡献。我们提出了Search-P1,一个为Agentic RAG训练引入路径中心奖励塑造的框架,包括两个关键组件:(1)路径中心奖励,通过与顺序无关的步骤覆盖和软评分来评估推理轨迹的结构质量,即使从失败的样本中也能提取学习信号;(2)具有离线生成的参考规划器的双轨路径评分,从自我一致性和参考对齐的角度评估路径。在多个QA基准上的实验表明,Search-P1优于Search-R1和其他强大的基线,平均准确率提高了7.7个百分点。
🔬 方法详解
问题定义:论文旨在解决Agentic RAG训练中奖励稀疏和样本效率低下的问题。现有的基于强化学习的Agentic RAG训练方法通常只在最终答案正确时给予奖励,而忽略了中间检索和推理步骤的质量,导致模型难以学习有效的检索策略。失败的样本由于没有得到任何奖励,对训练的贡献几乎为零。
核心思路:论文的核心思路是通过路径中心奖励塑造来解决奖励稀疏问题。具体来说,它不是仅仅关注最终结果,而是对整个推理路径进行评估,即使最终答案错误,只要中间步骤的检索和推理过程合理,也会给予一定的奖励。这样可以更有效地利用样本,并提供更丰富的学习信号。
技术框架:Search-P1框架包含两个主要组件:路径中心奖励和双轨路径评分。路径中心奖励用于评估推理轨迹的结构质量,包括步骤覆盖率和软评分。双轨路径评分则从自我一致性和参考对齐两个角度评估路径的质量,利用离线生成的参考规划器作为对齐的依据。整个训练流程包括Agent与环境交互生成轨迹,然后使用路径中心奖励和双轨路径评分对轨迹进行评估,最后使用强化学习算法更新Agent的策略。
关键创新:Search-P1的关键创新在于路径中心奖励塑造。与传统的只关注结果的奖励函数不同,路径中心奖励能够评估中间推理步骤的质量,从而更有效地利用样本,并提供更丰富的学习信号。此外,双轨路径评分通过引入离线生成的参考规划器,可以更准确地评估推理路径的质量。
关键设计:路径中心奖励包括两个部分:步骤覆盖率和软评分。步骤覆盖率用于衡量推理路径覆盖了多少相关的知识片段。软评分则根据检索到的文档与问题之间的相关性来给予奖励,即使检索到的文档不能直接回答问题,只要与问题相关,也会给予一定的奖励。双轨路径评分使用离线生成的参考规划器来评估推理路径的质量,参考规划器可以通过专家知识或者其他方法生成。损失函数采用标准的强化学习损失函数,例如Policy Gradient或Actor-Critic。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Search-P1在多个QA基准测试中显著优于Search-R1和其他强大的基线,平均准确率提高了7.7个百分点。例如,在一个具体的基准测试中,Search-P1的准确率达到了85%,而Search-R1的准确率只有77%。这表明Search-P1能够更有效地利用样本,并学习到更有效的检索策略。
🎯 应用场景
该研究成果可应用于各种需要多步骤推理和知识检索的场景,例如问答系统、对话系统、智能助手等。通过提升Agentic RAG的训练效率和性能,可以构建更智能、更可靠的知识驱动型人工智能系统,在医疗诊断、金融分析、教育辅导等领域具有广泛的应用前景。
📄 摘要(原文)
Retrieval-Augmented Generation (RAG) enhances large language models (LLMs) by incorporating external knowledge, yet traditional single-round retrieval struggles with complex multi-step reasoning. Agentic RAG addresses this by enabling LLMs to dynamically decide when and what to retrieve, but current RL-based training methods suffer from sparse outcome rewards that discard intermediate signals and low sample efficiency where failed samples contribute nothing. We propose Search-P1, a framework that introduces path-centric reward shaping for agentic RAG training, comprising two key components: (1) Path-Centric Reward, which evaluates the structural quality of reasoning trajectories through order-agnostic step coverage and soft scoring that extracts learning signals even from failed samples, and (2) Dual-Track Path Scoring with offline-generated reference planners that assesses paths from both self-consistency and reference-alignment perspectives. Experiments on multiple QA benchmarks demonstrate that Search-P1 achieves significant improvements over Search-R1 and other strong baselines, with an average accuracy gain of 7.7 points.