Search-P1: Path-Centric Reward Shaping for Stable and Efficient Agentic RAG Training

📄 arXiv: 2602.22576v1 📥 PDF

作者: Tianle Xia, Ming Xu, Lingxiang Hu, Yiding Sun, Wenwei Li, Linfang Shang, Liqun Liu, Peng Shu, Huan Yu, Jie Jiang

分类: cs.CL, cs.IR, cs.LG

发布日期: 2026-02-26


💡 一句话要点

提出Search-P1以解决Agentic RAG训练中的稀疏奖励问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 路径中心奖励 强化学习 多步推理 自然语言处理

📋 核心要点

  1. 现有的Agentic RAG训练方法在处理复杂推理时面临稀疏奖励和低样本效率的问题,导致中间信号被忽视。
  2. 本文提出的Search-P1框架通过路径中心奖励塑造,能够从失败样本中提取学习信号,提升训练效率。
  3. 在多个问答基准测试中,Search-P1相较于Search-R1和其他基线方法,平均准确率提升了7.7个百分点,效果显著。

📝 摘要(中文)

检索增强生成(RAG)通过引入外部知识来增强大型语言模型(LLMs),但传统的单轮检索在复杂的多步推理中表现不佳。Agentic RAG通过动态决定何时以及检索什么来解决这一问题,但现有的基于强化学习的训练方法面临稀疏奖励和低样本效率的挑战。本文提出了Search-P1框架,引入路径中心奖励塑造,包含路径中心奖励和双轨路径评分两个关键组件。实验结果表明,Search-P1在多个问答基准上显著提升了性能,平均准确率提高了7.7个百分点。

🔬 方法详解

问题定义:本文旨在解决Agentic RAG训练中的稀疏奖励和低样本效率问题。现有方法在多步推理中无法有效利用中间结果,导致训练效果不佳。

核心思路:Search-P1框架通过路径中心奖励塑造,评估推理轨迹的结构质量,从而在失败样本中提取有效的学习信号,提升训练的稳定性和效率。

技术框架:Search-P1框架主要包含两个模块:路径中心奖励和双轨路径评分。路径中心奖励通过无序步骤覆盖和软评分来评估推理质量;双轨路径评分则结合离线生成的参考规划器,从自一致性和参考对齐两个角度评估路径。

关键创新:最重要的创新在于路径中心奖励的引入,使得即使在失败的推理过程中也能获得有效的学习信号,从而克服了传统方法的稀疏奖励问题。

关键设计:在路径中心奖励中,采用了无序步骤覆盖和软评分机制,确保能够从不同的推理路径中提取信息。此外,双轨路径评分的设计使得模型能够更全面地评估推理路径的质量,提升了训练的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,Search-P1在多个问答基准上表现优异,相较于Search-R1和其他强基线,平均准确率提升了7.7个百分点,证明了路径中心奖励塑造的有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括智能问答系统、对话生成和信息检索等。通过提高Agentic RAG的训练效率和准确性,Search-P1能够在实际应用中提供更为可靠的知识获取和生成能力,推动自然语言处理技术的发展。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) enhances large language models (LLMs) by incorporating external knowledge, yet traditional single-round retrieval struggles with complex multi-step reasoning. Agentic RAG addresses this by enabling LLMs to dynamically decide when and what to retrieve, but current RL-based training methods suffer from sparse outcome rewards that discard intermediate signals and low sample efficiency where failed samples contribute nothing. We propose Search-P1, a framework that introduces path-centric reward shaping for agentic RAG training, comprising two key components: (1) Path-Centric Reward, which evaluates the structural quality of reasoning trajectories through order-agnostic step coverage and soft scoring that extracts learning signals even from failed samples, and (2) Dual-Track Path Scoring with offline-generated reference planners that assesses paths from both self-consistency and reference-alignment perspectives. Experiments on multiple QA benchmarks demonstrate that Search-P1 achieves significant improvements over Search-R1 and other strong baselines, with an average accuracy gain of 7.7 points.