DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL
作者: Rui Lu, Zhenyu Hou, Zihan Wang, Hanchen Zhang, Xiao Liu, Yujiang Li, Shi Feng, Jie Tang, Yuxiao Dong
分类: cs.CL
发布日期: 2025-09-12 (更新: 2025-10-14)
🔗 代码/项目: GITHUB
💡 一句话要点
DeepDive:利用知识图谱和多轮强化学习提升深度搜索Agent能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 深度搜索 强化学习 知识图谱 大型语言模型 多轮推理
📋 核心要点
- 现有开放LLM在深度搜索任务中面临长程推理能力不足和缺乏高质量训练数据的挑战。
- DeepDive通过从知识图谱自动生成复杂问题,并采用多轮强化学习来提升LLM的搜索能力。
- 实验表明,DeepDive在BrowseComp等基准测试中超越现有方法,证明了多轮RL训练的有效性。
📝 摘要(中文)
本文提出了DeepDive,旨在提升深度搜索Agent的能力。针对开放LLM在复杂真实世界任务中,因浏览工具带来的长程推理能力不足以及缺乏足够困难的监督数据的问题,DeepDive首先提出了一种从开放知识图谱中自动合成复杂、难以找到的问题的策略。其次,应用端到端多轮强化学习(RL)来增强LLM在深度搜索中的长程推理能力。为了鼓励多样性并减少冗余,设计了一种冗余惩罚,以避免重复相似的查询。实验表明,DeepDive-32B在BrowseComp上取得了新的开源竞争结果,优于WebSailor、DeepSeek-R1-Browse和Search-o1。多轮RL训练提高了深度搜索能力,并显著促进了多个基准测试的性能提升。DeepDive还支持测试时工具调用的扩展和并行采样。所有数据集、模型和代码均已公开。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)在结合浏览工具进行深度搜索时,面临着两个主要问题。一是长程推理能力不足,难以处理需要多次交互和复杂推理的任务。二是缺乏足够困难和高质量的监督数据,导致模型难以有效学习深度搜索策略。这些问题限制了LLM在解决复杂、真实世界问题中的应用。
核心思路:DeepDive的核心思路是通过自动生成高质量的训练数据和采用多轮强化学习来提升LLM的深度搜索能力。具体来说,首先利用知识图谱自动生成复杂的问题,这些问题需要多次搜索和推理才能解决。然后,使用多轮强化学习来训练LLM,使其能够更好地利用浏览工具进行长程推理。此外,还引入了冗余惩罚机制,以鼓励搜索的多样性,避免重复查询。
技术框架:DeepDive的整体框架包括三个主要部分:问题生成模块、多轮强化学习训练模块和深度搜索Agent。问题生成模块负责从知识图谱中自动生成复杂的问题。多轮强化学习训练模块使用生成的问题来训练LLM,使其能够更好地利用浏览工具进行深度搜索。深度搜索Agent是最终的搜索系统,它使用训练好的LLM来解决实际的搜索任务。
关键创新:DeepDive的关键创新在于以下几点:1) 提出了一种从开放知识图谱中自动合成复杂搜索问题的方法,解决了缺乏高质量训练数据的问题。2) 采用端到端多轮强化学习来训练LLM,使其能够更好地进行长程推理和利用浏览工具。3) 设计了一种冗余惩罚机制,以鼓励搜索的多样性,避免重复查询。这些创新使得DeepDive能够显著提升深度搜索Agent的性能。
关键设计:在多轮强化学习训练中,使用了Proximal Policy Optimization (PPO)算法。奖励函数的设计至关重要,除了基本的任务完成奖励外,还包括冗余惩罚项,用于惩罚重复的查询。具体来说,冗余惩罚项基于查询之间的相似度计算,相似度越高,惩罚越大。此外,还使用了并行采样技术,以加速训练过程。具体参数设置(如PPO的学习率、折扣因子、冗余惩罚系数等)未知。
🖼️ 关键图片
📊 实验亮点
DeepDive-32B在BrowseComp基准测试中取得了新的开源领先结果,超越了WebSailor、DeepSeek-R1-Browse和Search-o1等现有方法。实验结果表明,多轮强化学习训练能够显著提升深度搜索能力,并对多个基准测试的性能提升做出重要贡献。此外,DeepDive还支持测试时工具调用的扩展和并行采样,进一步提升了其性能和效率。
🎯 应用场景
DeepDive具有广泛的应用前景,可用于构建更强大的智能助手、知识问答系统和决策支持系统。通过提升深度搜索能力,可以帮助用户更有效地获取信息、解决复杂问题,并做出更明智的决策。未来,DeepDive有望应用于医疗诊断、金融分析、法律咨询等领域,为各行业带来智能化升级。
📄 摘要(原文)
Augmenting large language models (LLMs) with browsing tools substantially improves their potential as deep search agents to solve complex, real-world tasks. Yet, open LLMs still perform poorly in such settings due to limited long-horizon reasoning capacity with browsing tools and the lack of sufficiently difficult supervised data. To address these challenges, we present DeepDive to advance deep search agents. First, we propose a strategy to automatically synthesize complex, difficult, and hard-to-find questions from open knowledge graphs. Second, we apply end-to-end multi-turn reinforcement learning (RL) to enhance LLMs' long-horizon reasoning with deep search. To encourage diversity and reduce redundancy, we design a redundancy penalty that discourages repeated similar queries. Experiments show that DeepDive-32B achieves a new open-source competitive result on BrowseComp, outperforming WebSailor, DeepSeek-R1-Browse, and Search-o1. We demonstrate that multi-turn RL training improves deep search ability and significantly contributes to the performance improvements across multiple benchmarks. We observe that DeepDive enables test-time scaling of tool calls and parallel sampling. All datasets, models, and code are publicly available at https://github.com/THUDM/DeepDive.