PRAISE: Prefix-Based Rollout Reuse in Agentic Search Training

作者: Erhan Zhang, Yiqun Chen, Zechun Niu, Wei Yang, Xiaochi Wei, Yan Gao, Yi Wu, Yao Hu, Jiaxin Mao

分类: cs.AI

发布日期: 2026-04-07

💡 一句话要点

提出PRAISE框架，通过前缀复用提升Agentic搜索训练效率和奖励分配。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Agentic搜索 强化学习 多跳问答 前缀复用 奖励稀疏 数据效率 语言模型

📋 核心要点

现有Agentic搜索训练方法面临长程rollout利用率低和奖励稀疏性问题，导致训练效率低下。
PRAISE框架通过复用搜索轨迹中的前缀状态，并从中生成中间答案，增加训练数据并提供中间步骤奖励。
实验结果表明，PRAISE在多跳问答任务上显著提升了性能，验证了其在Agentic搜索训练中的有效性。

📝 摘要（中文）

在Agentic搜索中，大型语言模型(LLMs)被训练用于执行多轮检索和推理，以解决诸如多跳问答(QA)等复杂任务。然而，当前基于搜索的强化学习(RL)方法存在两个核心限制：昂贵的长程rollout在训练中未被充分利用，并且监督通常仅在最终答案处可用，导致严重的奖励稀疏性。我们提出了基于前缀的Rollout复用框架PRAISE，它利用中间步骤奖励来改进Agentic搜索训练中的数据效率和信用分配。给定一个完整的搜索轨迹，PRAISE提取不同搜索轮次的前缀状态，从中引出中间答案，并使用这些前缀来构建额外的训练轨迹，并从不同前缀之间的性能差异中推导出步骤级别的奖励。我们的方法使用单个共享模型进行搜索策略学习和前缀答案评估，从而实现联合优化，而无需额外的人工标注或单独的奖励模型。在多跳QA基准测试上的实验表明，PRAISE始终优于强大的基线。

🔬 方法详解

问题定义：Agentic搜索旨在利用LLM进行多轮检索和推理，解决复杂任务，如多跳问答。然而，现有方法主要依赖强化学习，面临两个主要痛点：一是长程搜索轨迹的rollout成本高昂，但利用率不足；二是奖励信号通常只在最终答案处给出，导致奖励稀疏，难以有效训练模型。

核心思路：PRAISE的核心思路是充分利用已有的完整搜索轨迹。通过提取轨迹中的前缀状态，并利用这些前缀状态生成中间答案，从而增加训练数据。同时，通过比较不同前缀状态下答案的质量，可以推导出中间步骤的奖励，解决奖励稀疏问题。这种方法旨在提高数据效率和信用分配的准确性。

技术框架：PRAISE框架主要包含以下几个阶段：1) 轨迹生成：通过Agentic搜索得到完整的搜索轨迹。2) 前缀提取：从轨迹中提取不同搜索轮次的前缀状态。3) 中间答案生成：利用LLM根据前缀状态生成中间答案。4) 奖励计算：基于中间答案的质量，计算中间步骤的奖励。5) 模型训练：利用生成的训练数据和奖励信号，联合优化搜索策略和前缀答案评估模型。

关键创新：PRAISE的关键创新在于前缀复用和中间步骤奖励的引入。传统方法只关注最终答案，而PRAISE通过利用中间状态的信息，显著提高了数据利用率和奖励信号的密度。此外，PRAISE使用单个共享模型进行搜索策略学习和前缀答案评估，避免了额外的人工标注或奖励模型的训练。

关键设计：PRAISE的关键设计包括：1) 前缀提取策略：如何选择合适的前缀状态，以保证训练数据的多样性和有效性。2) 中间答案评估方法：如何准确评估中间答案的质量，以生成可靠的奖励信号。3) 联合优化策略：如何有效地联合优化搜索策略和前缀答案评估模型，以实现最佳性能。论文中具体参数设置和损失函数细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PRAISE在多跳问答基准测试上 consistently 优于强大的基线模型。具体性能数据和提升幅度未知，但摘要强调了PRAISE在数据效率和信用分配方面的改进，以及在无需额外人工标注或单独奖励模型的情况下实现性能提升。

🎯 应用场景

PRAISE框架可广泛应用于需要多轮检索和推理的复杂任务，例如多跳问答、知识图谱推理、智能对话系统等。通过提高Agentic搜索的训练效率和性能，可以提升这些应用的用户体验和智能化水平，并降低训练成本。该方法在智能客服、搜索引擎、推荐系统等领域具有潜在的应用价值。

📄 摘要（原文）

In agentic search, large language models (LLMs) are trained to perform multi-turn retrieval and reasoning for complex tasks such as multi-hop question answering (QA). However, current search-based Reinforcement Learning (RL) methods suffer from two core limitations: expensive long-horizon rollouts are under-utilized during training, and supervision is typically available only at the final answer, resulting in severe reward sparsity. We present Prefix-based Rollout reuse for Agentic search with Intermediate Step rEwards (PRAISE), a framework for improving both data efficiency and credit assignment in agentic search training. Given a complete search trajectory, PRAISE extracts prefix states at different search turns, elicits intermediate answers from them, and uses these prefixes both to construct additional training trajectories and to derive step-level rewards from performance differences across prefixes. Our method uses a single shared model for both search policy learning and prefix answer evaluation, enabling joint optimization without extra human annotations or a separate reward model. Experiments on multi-hop QA benchmarks show that PRAISE consistently improves performance over strong baselines.

PRAISE: Prefix-Based Rollout Reuse in Agentic Search Training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理