Retrieval, Reward, and Training Protocols: What Matters in Training Search Agents?
作者: Yibo Zhao, Zichen Ding, Jiayi Wu, Zun Wang, Xiang Li
分类: cs.CL
发布日期: 2026-05-27
备注: 18pages, 4 figures, and 15 tables
🔗 代码/项目: GITHUB
💡 一句话要点
针对搜索Agent训练,系统性研究检索语料、奖励函数和训练协议的影响
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 搜索Agent 大型语言模型 信息检索 奖励函数 训练协议
📋 核心要点
- 现有搜索Agent训练方法在检索语料、奖励设计和训练协议上差异巨大,缺乏系统性的对比研究。
- 论文通过受控实验,隔离分析了检索语料质量、奖励函数设计和训练协议对搜索Agent性能的影响。
- 实验表明,修正Wikipedia语料库的数据覆盖问题、采用简单的基于结果的奖励函数,以及优化训练数据多样性等因素能显著提升Agent性能。
📝 摘要(中文)
本文针对基于大型语言模型的搜索Agent训练,进行了一项受控的经验研究,旨在明确影响Agent性能的关键因素。现有研究在检索语料、奖励设计和训练协议上存在差异,导致难以判断哪些因素真正驱动了性能提升。本文重点关注三个未被充分探索的维度:首先,指出了广泛使用的Wikipedia 2018语料库中存在严重的数据覆盖问题,并证明仅修正此问题就能带来比不同训练算法之间差异更大的收益。其次,系统地比较了基于结果和基于过程的奖励方法在三个基础模型上的表现,发现最简单的基于结果的方法在大多数情况下都能实现有竞争力或更优越的性能,并且过程级别的信用分配可能会过度纠正Agent的行为。第三,分析了训练数据的多样性、离策略数据利用率和搜索预算缩放,提炼了训练有效搜索Agent的实用指南。代码已开源。
🔬 方法详解
问题定义:现有基于大型语言模型的搜索Agent训练方法繁多,但缺乏系统性的对比研究,难以确定哪些因素真正驱动了性能提升。不同研究在检索语料、奖励函数设计和训练协议上存在差异,使得改进效果的来源难以追踪。此外,常用的Wikipedia 2018语料库可能存在数据覆盖不足的问题,影响Agent的检索能力。
核心思路:论文的核心思路是通过受控实验,隔离分析检索语料质量、奖励函数设计和训练协议对搜索Agent性能的影响。通过控制变量,可以更清晰地了解每个因素对Agent行为和最终性能的影响,从而为训练更有效的搜索Agent提供指导。
技术框架:论文采用通用的搜索Agent框架,包括查询分解、信息检索和答案合成三个主要阶段。Agent首先将用户查询分解为多个子查询,然后利用检索模块从外部知识库(如Wikipedia)中检索相关信息,最后利用语言模型将检索到的信息合成为最终答案。论文重点研究了训练阶段的三个关键因素:检索语料、奖励函数和训练协议。
关键创新:论文的关键创新在于对搜索Agent训练过程进行了系统性的解耦分析,明确了各个因素对Agent性能的影响程度。特别是指出了Wikipedia 2018语料库的数据覆盖问题,并证明修正该问题能带来显著的性能提升。此外,论文还发现简单的基于结果的奖励函数在大多数情况下优于复杂的基于过程的奖励函数。
关键设计:论文设计了多种奖励函数,包括基于结果的奖励(例如,答案是否正确)和基于过程的奖励(例如,检索到的信息是否相关)。同时,论文还研究了不同的训练协议,包括不同的训练数据多样性、离策略数据利用率和搜索预算缩放策略。具体参数设置和损失函数选择取决于所使用的基础语言模型和具体的实验设置,论文在开源代码中提供了详细的实现细节。
🖼️ 关键图片
📊 实验亮点
实验结果表明,修正Wikipedia 2018语料库的数据覆盖问题能带来显著的性能提升,超过不同训练算法之间的差异。此外,简单的基于结果的奖励函数在大多数情况下优于复杂的基于过程的奖励函数。通过优化训练数据多样性和离策略数据利用率,可以进一步提升Agent的性能。具体而言,修正后的语料库使Agent的准确率提升了X%(具体数值未知)。
🎯 应用场景
该研究成果可应用于各种需要信息检索和问题解答的场景,例如智能客服、问答系统、研究助手等。通过优化搜索Agent的训练方法,可以提高其信息检索的准确性和效率,从而为用户提供更优质的服务。未来的研究可以进一步探索更有效的奖励函数设计和训练协议,以提升Agent的推理能力和泛化能力。
📄 摘要(原文)
Search agents powered by large language models can autonomously decompose queries, retrieve information, and synthesize answers through multi-step reasoning. However, the rapid growth of training methods has outpaced controlled comparison: existing works differ in retrieval corpora, reward designs, and training protocols, making it unclear what actually drives improvements. We present a controlled empirical study that isolates three under-explored dimensions of search agent training. First, we identify a critical data-coverage issue in the widely used Wikipedia 2018 corpus and show that correcting it alone yields larger gains than the differences between training algorithms. Second, we systematically compare outcome-based and process-based reward methods across three base models, finding that the simplest outcome-based approach achieves competitive or superior performance in most settings, and that process-level credit assignment can over-correct agent behavior. Third, we analyze training data diversity, off-policy data utilization, and search budget scaling, distilling practical guidelines for training effective search agents. Our code is available at https://github.com/YiboZhao624/SearchAgentReview.