OffSeeker: Online Reinforcement Learning Is Not All You Need for Deep Research Agents
作者: Yuhang Zhou, Kai Zheng, Qiguang Chen, Mengkang Hu, Qingfeng Sun, Can Xu, Jingjing Chen
分类: cs.AI, cs.LG
发布日期: 2026-01-26
💡 一句话要点
提出OffSeeker,利用离线数据训练高性能研究Agent,降低在线强化学习成本。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 深度研究Agent 离线强化学习 任务合成 数据驱动 开源套件
📋 核心要点
- 现有研究Agent依赖昂贵的在线强化学习,限制了其应用和发展。
- OffSeeker通过离线训练,利用合成数据和精选数据集,降低训练成本。
- 实验表明,OffSeeker在多个基准测试中表现出色,可与大型在线训练模型竞争。
📝 摘要(中文)
深度研究Agent在处理长时程任务方面展现出卓越潜力。然而,目前最优性能通常依赖于在线强化学习(RL),由于大量的API调用,这在经济上代价高昂。离线训练提供了一种更高效的替代方案,但其进展受到高质量研究轨迹稀缺的阻碍。本文证明,构建强大的研究Agent并非必须依赖昂贵的在线强化学习。为了弥合这一差距,我们引入了一个完全开源的套件,专为有效的离线训练而设计。我们的核心贡献包括DeepForge,一个开箱即用的任务合成框架,无需大量预处理即可生成大规模研究查询;以及一个精选的包含66k QA对、33k SFT轨迹和21k DPO对的数据集。利用这些资源,我们完全离线地训练了一个名为OffSeeker (8B) 的模型。在六个基准测试中进行的广泛评估表明,OffSeeker不仅在同等规模的Agent中处于领先地位,而且与通过大量在线RL训练的30B参数系统相比,仍然具有竞争力。
🔬 方法详解
问题定义:现有深度研究Agent依赖在线强化学习,需要大量API调用,训练成本高昂。高质量研究轨迹的稀缺阻碍了离线训练的发展,难以训练出高性能的Agent。
核心思路:通过任务合成框架DeepForge生成大规模研究查询,并构建包含QA对、SFT轨迹和DPO对的精选数据集,从而实现完全离线的Agent训练。核心在于解决离线训练数据不足和质量不高的问题。
技术框架:OffSeeker的训练流程主要包括三个部分:1) 使用DeepForge生成大规模研究查询;2) 构建包含QA对、SFT轨迹和DPO对的精选数据集;3) 利用这些数据,采用离线强化学习算法训练Agent。整体框架旨在提供一个完整的离线训练解决方案。
关键创新:关键创新在于DeepForge任务合成框架和精选数据集的构建。DeepForge能够高效生成大规模、高质量的研究查询,解决了离线训练数据不足的问题。精选数据集则保证了训练数据的质量,提升了Agent的性能。
关键设计:论文中没有详细说明具体的参数设置、损失函数和网络结构等技术细节。OffSeeker (8B) 模型的大小为80亿参数,具体网络结构未知。数据集包含66k QA对、33k SFT轨迹和21k DPO对,具体的数据处理和筛选方法未知。
📊 实验亮点
OffSeeker (8B) 在六个基准测试中表现出色,不仅在同等规模的Agent中处于领先地位,而且与通过大量在线RL训练的30B参数系统相比,仍然具有竞争力。这表明,通过有效的离线训练,可以显著降低训练成本,同时保持甚至超越在线训练模型的性能。
🎯 应用场景
OffSeeker的潜在应用领域包括自动化科研、智能助手、信息检索等。通过降低研究Agent的训练成本,可以促进其在各个领域的应用,加速科研进展,并为用户提供更智能、高效的服务。未来,可以进一步探索OffSeeker在更复杂任务中的应用,并研究如何进一步提升其性能。
📄 摘要(原文)
Deep research agents have shown remarkable potential in handling long-horizon tasks. However, state-of-the-art performance typically relies on online reinforcement learning (RL), which is financially expensive due to extensive API calls. While offline training offers a more efficient alternative, its progress is hindered by the scarcity of high-quality research trajectories. In this paper, we demonstrate that expensive online reinforcement learning is not all you need to build powerful research agents. To bridge this gap, we introduce a fully open-source suite designed for effective offline training. Our core contributions include DeepForge, a ready-to-use task synthesis framework that generates large-scale research queries without heavy preprocessing; and a curated collection of 66k QA pairs, 33k SFT trajectories, and 21k DPO pairs. Leveraging these resources, we train OffSeeker (8B), a model developed entirely offline. Extensive evaluations across six benchmarks show that OffSeeker not only leads among similar-sized agents but also remains competitive with 30B-parameter systems trained via heavy online RL.