PRAISE: Prefix-Based Rollout Reuse in Agentic Search Training
作者: Erhan Zhang, Yiqun Chen, Zechun Niu, Wei Yang, Xiaochi Wei, Yan Gao, Yi Wu, Yao Hu, Jiaxin Mao
分类: cs.AI
发布日期: 2026-04-07
💡 一句话要点
提出PRAISE框架,通过前缀复用提升Agentic搜索训练效率和奖励分配。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agentic搜索 强化学习 多跳问答 前缀复用 奖励稀疏 数据效率 语言模型
📋 核心要点
- 现有Agentic搜索训练方法面临长程rollout利用率低和奖励稀疏性问题,导致训练效率低下。
- PRAISE框架通过复用搜索轨迹中的前缀状态,并从中生成中间答案,增加训练数据并提供中间步骤奖励。
- 实验结果表明,PRAISE在多跳问答任务上显著提升了性能,验证了其在Agentic搜索训练中的有效性。
📝 摘要(中文)
在Agentic搜索中,大型语言模型(LLMs)被训练用于执行多轮检索和推理,以解决诸如多跳问答(QA)等复杂任务。然而,当前基于搜索的强化学习(RL)方法存在两个核心限制:昂贵的长程rollout在训练中未被充分利用,并且监督通常仅在最终答案处可用,导致严重的奖励稀疏性。我们提出了基于前缀的Rollout复用框架PRAISE,它利用中间步骤奖励来改进Agentic搜索训练中的数据效率和信用分配。给定一个完整的搜索轨迹,PRAISE提取不同搜索轮次的前缀状态,从中引出中间答案,并使用这些前缀来构建额外的训练轨迹,并从不同前缀之间的性能差异中推导出步骤级别的奖励。我们的方法使用单个共享模型进行搜索策略学习和前缀答案评估,从而实现联合优化,而无需额外的人工标注或单独的奖励模型。在多跳QA基准测试上的实验表明,PRAISE始终优于强大的基线。
🔬 方法详解
问题定义:Agentic搜索旨在利用LLM进行多轮检索和推理,解决复杂任务,如多跳问答。然而,现有方法主要依赖强化学习,面临两个主要痛点:一是长程搜索轨迹的rollout成本高昂,但利用率不足;二是奖励信号通常只在最终答案处给出,导致奖励稀疏,难以有效训练模型。
核心思路:PRAISE的核心思路是充分利用已有的完整搜索轨迹。通过提取轨迹中的前缀状态,并利用这些前缀状态生成中间答案,从而增加训练数据。同时,通过比较不同前缀状态下答案的质量,可以推导出中间步骤的奖励,解决奖励稀疏问题。这种方法旨在提高数据效率和信用分配的准确性。
技术框架:PRAISE框架主要包含以下几个阶段:1) 轨迹生成:通过Agentic搜索得到完整的搜索轨迹。2) 前缀提取:从轨迹中提取不同搜索轮次的前缀状态。3) 中间答案生成:利用LLM根据前缀状态生成中间答案。4) 奖励计算:基于中间答案的质量,计算中间步骤的奖励。5) 模型训练:利用生成的训练数据和奖励信号,联合优化搜索策略和前缀答案评估模型。
关键创新:PRAISE的关键创新在于前缀复用和中间步骤奖励的引入。传统方法只关注最终答案,而PRAISE通过利用中间状态的信息,显著提高了数据利用率和奖励信号的密度。此外,PRAISE使用单个共享模型进行搜索策略学习和前缀答案评估,避免了额外的人工标注或奖励模型的训练。
关键设计:PRAISE的关键设计包括:1) 前缀提取策略:如何选择合适的前缀状态,以保证训练数据的多样性和有效性。2) 中间答案评估方法:如何准确评估中间答案的质量,以生成可靠的奖励信号。3) 联合优化策略:如何有效地联合优化搜索策略和前缀答案评估模型,以实现最佳性能。论文中具体参数设置和损失函数细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PRAISE在多跳问答基准测试上 consistently 优于强大的基线模型。具体性能数据和提升幅度未知,但摘要强调了PRAISE在数据效率和信用分配方面的改进,以及在无需额外人工标注或单独奖励模型的情况下实现性能提升。
🎯 应用场景
PRAISE框架可广泛应用于需要多轮检索和推理的复杂任务,例如多跳问答、知识图谱推理、智能对话系统等。通过提高Agentic搜索的训练效率和性能,可以提升这些应用的用户体验和智能化水平,并降低训练成本。该方法在智能客服、搜索引擎、推荐系统等领域具有潜在的应用价值。
📄 摘要(原文)
In agentic search, large language models (LLMs) are trained to perform multi-turn retrieval and reasoning for complex tasks such as multi-hop question answering (QA). However, current search-based Reinforcement Learning (RL) methods suffer from two core limitations: expensive long-horizon rollouts are under-utilized during training, and supervision is typically available only at the final answer, resulting in severe reward sparsity. We present Prefix-based Rollout reuse for Agentic search with Intermediate Step rEwards (PRAISE), a framework for improving both data efficiency and credit assignment in agentic search training. Given a complete search trajectory, PRAISE extracts prefix states at different search turns, elicits intermediate answers from them, and uses these prefixes both to construct additional training trajectories and to derive step-level rewards from performance differences across prefixes. Our method uses a single shared model for both search policy learning and prefix answer evaluation, enabling joint optimization without extra human annotations or a separate reward model. Experiments on multi-hop QA benchmarks show that PRAISE consistently improves performance over strong baselines.