OffSeeker: Online Reinforcement Learning Is Not All You Need for Deep Research Agents

作者: Yuhang Zhou, Kai Zheng, Qiguang Chen, Mengkang Hu, Qingfeng Sun, Can Xu, Jingjing Chen

分类: cs.AI, cs.LG

发布日期: 2026-01-26

💡 一句话要点

提出OffSeeker，利用离线数据训练高性能研究Agent，降低在线强化学习成本。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 深度研究Agent 离线强化学习 任务合成 数据驱动 开源套件

📋 核心要点

现有研究Agent依赖昂贵的在线强化学习，限制了其应用和发展。
OffSeeker通过离线训练，利用合成数据和精选数据集，降低训练成本。
实验表明，OffSeeker在多个基准测试中表现出色，可与大型在线训练模型竞争。

📝 摘要（中文）

深度研究Agent在处理长时程任务方面展现出卓越潜力。然而，目前最优性能通常依赖于在线强化学习(RL)，由于大量的API调用，这在经济上代价高昂。离线训练提供了一种更高效的替代方案，但其进展受到高质量研究轨迹稀缺的阻碍。本文证明，构建强大的研究Agent并非必须依赖昂贵的在线强化学习。为了弥合这一差距，我们引入了一个完全开源的套件，专为有效的离线训练而设计。我们的核心贡献包括DeepForge，一个开箱即用的任务合成框架，无需大量预处理即可生成大规模研究查询；以及一个精选的包含66k QA对、33k SFT轨迹和21k DPO对的数据集。利用这些资源，我们完全离线地训练了一个名为OffSeeker (8B) 的模型。在六个基准测试中进行的广泛评估表明，OffSeeker不仅在同等规模的Agent中处于领先地位，而且与通过大量在线RL训练的30B参数系统相比，仍然具有竞争力。

🔬 方法详解

问题定义：现有深度研究Agent依赖在线强化学习，需要大量API调用，训练成本高昂。高质量研究轨迹的稀缺阻碍了离线训练的发展，难以训练出高性能的Agent。

核心思路：通过任务合成框架DeepForge生成大规模研究查询，并构建包含QA对、SFT轨迹和DPO对的精选数据集，从而实现完全离线的Agent训练。核心在于解决离线训练数据不足和质量不高的问题。

技术框架：OffSeeker的训练流程主要包括三个部分：1) 使用DeepForge生成大规模研究查询；2) 构建包含QA对、SFT轨迹和DPO对的精选数据集；3) 利用这些数据，采用离线强化学习算法训练Agent。整体框架旨在提供一个完整的离线训练解决方案。

关键创新：关键创新在于DeepForge任务合成框架和精选数据集的构建。DeepForge能够高效生成大规模、高质量的研究查询，解决了离线训练数据不足的问题。精选数据集则保证了训练数据的质量，提升了Agent的性能。

关键设计：论文中没有详细说明具体的参数设置、损失函数和网络结构等技术细节。OffSeeker (8B) 模型的大小为80亿参数，具体网络结构未知。数据集包含66k QA对、33k SFT轨迹和21k DPO对，具体的数据处理和筛选方法未知。

📊 实验亮点

OffSeeker (8B) 在六个基准测试中表现出色，不仅在同等规模的Agent中处于领先地位，而且与通过大量在线RL训练的30B参数系统相比，仍然具有竞争力。这表明，通过有效的离线训练，可以显著降低训练成本，同时保持甚至超越在线训练模型的性能。

🎯 应用场景

OffSeeker的潜在应用领域包括自动化科研、智能助手、信息检索等。通过降低研究Agent的训练成本，可以促进其在各个领域的应用，加速科研进展，并为用户提供更智能、高效的服务。未来，可以进一步探索OffSeeker在更复杂任务中的应用，并研究如何进一步提升其性能。

📄 摘要（原文）

Deep research agents have shown remarkable potential in handling long-horizon tasks. However, state-of-the-art performance typically relies on online reinforcement learning (RL), which is financially expensive due to extensive API calls. While offline training offers a more efficient alternative, its progress is hindered by the scarcity of high-quality research trajectories. In this paper, we demonstrate that expensive online reinforcement learning is not all you need to build powerful research agents. To bridge this gap, we introduce a fully open-source suite designed for effective offline training. Our core contributions include DeepForge, a ready-to-use task synthesis framework that generates large-scale research queries without heavy preprocessing; and a curated collection of 66k QA pairs, 33k SFT trajectories, and 21k DPO pairs. Leveraging these resources, we train OffSeeker (8B), a model developed entirely offline. Extensive evaluations across six benchmarks show that OffSeeker not only leads among similar-sized agents but also remains competitive with 30B-parameter systems trained via heavy online RL.

OffSeeker: Online Reinforcement Learning Is Not All You Need for Deep Research Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理