SearchGym: Bootstrapping Real-World Search Agents via Cost-Effective and High-Fidelity Environment Simulation

📄 arXiv: 2601.14615v1 📥 PDF

作者: Xichen Zhang, Ziyi He, Yinghao Zhu, Sitong Wu, Shaozuo Yu, Meng Chu, Wenhu Zhang, Haoru Tan, Jiaya Jia

分类: cs.CL, cs.AI

发布日期: 2026-01-21


💡 一句话要点

SearchGym:通过高保真、低成本环境模拟引导现实世界搜索Agent

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 搜索Agent 强化学习 模拟环境 知识图谱 课程学习

📋 核心要点

  1. 现有搜索Agent训练依赖真实Web API成本高昂,而静态数据快照易引入数据不对齐问题,导致奖励信号错误,影响训练。
  2. 论文提出SearchGym模拟环境,通过生成可验证知识图谱和对齐文档语料库,确保任务基于事实且可解,提供纯净反馈。
  3. 实验表明,在SearchGym中训练的Qwen2.5-7B-Base模型在多个基准测试中显著优于现有Web增强的ASearcher基线。

📝 摘要(中文)

搜索Agent已成为解决开放域、知识密集型推理任务的关键范式。然而,通过强化学习(RL)训练这些Agent面临着一个严峻的困境:与真实的商业Web API交互成本过高,而依赖静态数据快照又常常由于数据不对齐而引入噪声。这种不对齐会产生错误的奖励信号,通过惩罚正确的推理或奖励幻觉来破坏训练的稳定性。为了解决这个问题,我们提出了SearchGym,一个旨在引导鲁棒搜索Agent的模拟环境。SearchGym采用严格的生成流程来构建可验证的知识图谱和对齐的文档语料库,确保每个推理任务都基于事实且严格可解。在此可控环境的基础上,我们引入了SearchGym-RL,一种课程学习方法,通过纯净的反馈逐步优化Agent策略,从基本交互发展到复杂的长程规划。在Llama和Qwen系列上的大量实验表明了强大的Sim-to-Real泛化能力。值得注意的是,我们使用SearchGym训练的Qwen2.5-7B-Base模型在九个不同的基准测试中,平均相对幅度超过了web增强的ASearcher基线10.6%。我们的结果验证了高保真模拟是开发有能力的搜索Agent的一种可扩展且高性价比的方法。

🔬 方法详解

问题定义:论文旨在解决现有搜索Agent训练中,与真实Web API交互成本过高,以及使用静态数据快照导致数据不对齐,进而产生错误奖励信号的问题。现有方法的痛点在于无法在低成本且高保真的环境下有效训练搜索Agent,导致模型泛化能力受限。

核心思路:论文的核心思路是构建一个高保真的模拟环境SearchGym,该环境能够生成可验证的知识图谱和对齐的文档语料库,从而确保训练任务的真实性和可解性。通过在这个模拟环境中进行强化学习,可以避免与真实Web API交互的高昂成本,并减少数据不对齐带来的噪声。

技术框架:SearchGym的技术框架主要包含两个部分:一是环境生成流程,用于构建可验证的知识图谱和对齐的文档语料库;二是SearchGym-RL,一种课程学习方法,用于在SearchGym环境中训练搜索Agent。环境生成流程确保了任务的真实性和可解性,而SearchGym-RL则通过纯净的反馈逐步优化Agent策略,从基本交互发展到复杂的长程规划。

关键创新:论文最重要的技术创新点在于提出了SearchGym,一个高保真、低成本的搜索Agent模拟环境。与现有方法相比,SearchGym能够生成可验证的知识图谱和对齐的文档语料库,从而提供更真实、更可靠的训练环境。这使得Agent能够在模拟环境中学习到更有效的搜索策略,并将其泛化到真实世界中。

关键设计:SearchGym的关键设计包括:(1) 知识图谱和文档语料库的生成方法,确保其可验证性和对齐性;(2) SearchGym-RL的课程学习策略,逐步增加任务的难度,引导Agent学习复杂的搜索策略;(3) 奖励函数的设计,确保Agent能够获得纯净的反馈,避免受到错误奖励信号的干扰。具体的参数设置、损失函数和网络结构等细节在论文中进行了详细描述,此处不再赘述。

📊 实验亮点

实验结果表明,使用SearchGym训练的Qwen2.5-7B-Base模型在九个不同的基准测试中,平均相对幅度超过了web增强的ASearcher基线10.6%。这证明了SearchGym作为一种高保真模拟环境,能够有效提升搜索Agent的性能,并实现强大的Sim-to-Real泛化能力。

🎯 应用场景

该研究成果可广泛应用于智能问答、信息检索、知识图谱推理等领域。通过SearchGym,可以低成本、高效地训练出更强大的搜索Agent,从而提升这些应用的用户体验和性能。未来,该技术有望推动开放域知识密集型任务的自动化解决,并促进人工智能在更多领域的应用。

📄 摘要(原文)

Search agents have emerged as a pivotal paradigm for solving open-ended, knowledge-intensive reasoning tasks. However, training these agents via Reinforcement Learning (RL) faces a critical dilemma: interacting with live commercial Web APIs is prohibitively expensive, while relying on static data snapshots often introduces noise due to data misalignment. This misalignment generates corrupted reward signals that destabilize training by penalizing correct reasoning or rewarding hallucination. To address this, we propose SearchGym, a simulation environment designed to bootstrap robust search agents. SearchGym employs a rigorous generative pipeline to construct a verifiable knowledge graph and an aligned document corpus, ensuring that every reasoning task is factually grounded and strictly solvable. Building on this controllable environment, we introduce SearchGym-RL, a curriculum learning methodology that progressively optimizes agent policies through purified feedback, evolving from basic interactions to complex, long-horizon planning. Extensive experiments across the Llama and Qwen families demonstrate strong Sim-to-Real generalization. Notably, our Qwen2.5-7B-Base model trained within SearchGym surpasses the web-enhanced ASearcher baseline across nine diverse benchmarks by an average relative margin of 10.6%. Our results validate that high-fidelity simulation serves as a scalable and highly cost-effective methodology for developing capable search agents.