OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

📄 arXiv: 2603.15594v1 📥 PDF

作者: Yuwen Du, Rui Ye, Shuo Tang, Xinyu Zhu, Yijun Lu, Yuzhu Cai, Siheng Chen

分类: cs.AI, cs.CL

发布日期: 2026-03-16

备注: 15 pages, 6 figures


💡 一句话要点

OpenSeeker:通过完全开源训练数据,实现前沿搜索Agent的普及化。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 搜索Agent 大型语言模型 数据合成 开源 多跳推理 轨迹去噪 知识图谱 信息检索

📋 核心要点

  1. 现有搜索Agent训练数据匮乏,阻碍了研究社区在该领域的创新和发展,高性能Agent开发被工业界垄断。
  2. OpenSeeker通过事实驱动的可控QA合成和去噪轨迹合成,生成高质量训练数据,从而训练出高性能的开源搜索Agent。
  3. 实验表明,OpenSeeker在多个基准测试中取得了SOTA性能,甚至超越了某些工业界的Agent,证明了其有效性。

📝 摘要(中文)

深度搜索能力已成为前沿大型语言模型(LLM)Agent不可或缺的能力。然而,由于缺乏透明、高质量的训练数据,高性能搜索Agent的开发仍然由工业巨头主导。这种持续的数据稀缺从根本上阻碍了更广泛的研究社区在该领域进行开发和创新。为了弥合这一差距,我们推出了OpenSeeker,这是第一个完全开源的搜索Agent(即模型和数据),它通过两项核心技术创新实现了前沿水平的性能:(1)基于事实的可扩展可控QA合成,通过拓扑扩展和实体混淆来逆向工程Web图,以生成具有可控覆盖范围和复杂性的复杂多跳推理任务。(2)去噪轨迹合成,它采用回顾性总结机制来去噪轨迹,从而促进教师LLM生成高质量的动作。实验结果表明,OpenSeeker仅在11.7k个合成样本上训练(单次训练运行),即可在包括BrowseComp、BrowseComp-ZH、xbench-DeepSearch和WideSearch在内的多个基准测试中实现最先进的性能。值得注意的是,通过简单的SFT训练,OpenSeeker显著优于第二好的完全开源Agent DeepDive(例如,在BrowseComp上分别为29.5%和15.3%),甚至超过了工业竞争对手,如Tongyi DeepResearch(通过广泛的持续预训练、SFT和RL训练)在BrowseComp-ZH上(48.4%对46.7%)。我们完全开源了完整的训练数据集和模型权重,以普及前沿搜索Agent的研究,并促进更透明、协作的生态系统。

🔬 方法详解

问题定义:现有高性能搜索Agent的开发高度依赖于大规模、高质量的训练数据,而这些数据通常掌握在工业巨头手中,导致学术界和小型研究团队难以在该领域进行有效的研究和创新。现有的开源Agent性能相对较弱,无法满足复杂搜索任务的需求。

核心思路:OpenSeeker的核心思路是通过数据合成来解决训练数据不足的问题。具体来说,它通过逆向工程Web图来生成复杂的、多跳推理的QA任务,并采用去噪机制来提高轨迹数据的质量,从而训练出高性能的搜索Agent。这种方法旨在降低数据获取的门槛,使更多的研究者能够参与到搜索Agent的开发中。

技术框架:OpenSeeker的训练流程主要包含两个阶段:1) Fact-grounded scalable controllable QA synthesis:利用拓扑扩展和实体混淆技术,从Web图中生成复杂的多跳推理QA任务,并控制任务的覆盖范围和复杂度。2) Denoised trajectory synthesis:使用回顾性总结机制对Agent的搜索轨迹进行去噪,提高轨迹数据的质量,从而提升教师LLM生成高质量动作的能力。最终使用合成的数据集对Agent进行训练。

关键创新:OpenSeeker的关键创新在于其数据合成方法,包括:1) Fact-grounded scalable controllable QA synthesis:能够生成具有可控复杂度和覆盖范围的多跳推理任务,从而有效地训练Agent的推理能力。2) Denoised trajectory synthesis:通过回顾性总结机制,有效地去除了轨迹数据中的噪声,提高了训练数据的质量。

关键设计:在QA合成方面,论文设计了拓扑扩展和实体混淆策略,以生成多样化的训练数据。在轨迹去噪方面,采用了回顾性总结机制,利用LLM对Agent的搜索轨迹进行总结和提炼,从而去除噪声。训练过程采用简单的SFT(Supervised Fine-Tuning)方法,在11.7k个合成样本上进行训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OpenSeeker在多个基准测试中取得了显著的性能提升。例如,在BrowseComp上,OpenSeeker的性能为29.5%,显著优于第二好的完全开源Agent DeepDive(15.3%)。在BrowseComp-ZH上,OpenSeeker的性能为48.4%,甚至超过了工业竞争对手Tongyi DeepResearch(46.7%)。这些结果表明,OpenSeeker在搜索能力方面具有很强的竞争力。

🎯 应用场景

OpenSeeker的潜在应用领域包括智能助手、信息检索、知识图谱问答等。通过开源高质量的搜索Agent和训练数据,可以促进相关技术的发展和应用,例如,可以用于构建更智能的客服系统,提供更精准的搜索结果,以及支持更复杂的知识推理任务。该研究的开源特性有助于推动整个社区的协作和创新。

📄 摘要(原文)

Deep search capabilities have become an indispensable competency for frontier Large Language Model (LLM) agents, yet the development of high-performance search agents remains dominated by industrial giants due to a lack of transparent, high-quality training data. This persistent data scarcity has fundamentally hindered the progress of the broader research community in developing and innovating within this domain. To bridge this gap, we introduce OpenSeeker, the first fully open-source search agent (i.e., model and data) that achieves frontier-level performance through two core technical innovations: (1) Fact-grounded scalable controllable QA synthesis, which reverse-engineers the web graph via topological expansion and entity obfuscation to generate complex, multi-hop reasoning tasks with controllable coverage and complexity. (2) Denoised trajectory synthesis, which employs a retrospective summarization mechanism to denoise the trajectory, therefore promoting the teacher LLMs to generate high-quality actions. Experimental results demonstrate that OpenSeeker, trained (a single training run) on only 11.7k synthesized samples, achieves state-of-the-art performance across multiple benchmarks including BrowseComp, BrowseComp-ZH, xbench-DeepSearch, and WideSearch. Notably, trained with simple SFT, OpenSeeker significantly outperforms the second-best fully open-source agent DeepDive (e.g., 29.5% v.s. 15.3% on BrowseComp), and even surpasses industrial competitors such as Tongyi DeepResearch (trained via extensive continual pre-training, SFT, and RL) on BrowseComp-ZH (48.4% v.s. 46.7%). We fully open-source the complete training dataset and the model weights to democratize frontier search agent research and foster a more transparent, collaborative ecosystem.