DeepDiver: Adaptive Search Intensity Scaling via Open-Web Reinforcement Learning

作者: Wenxuan Shi, Haochen Tan, Chuqiao Kuang, Xiaoguang Li, Xiaozhe Ren, Chen Zhang, Hanting Chen, Yasheng Wang, Lu Hou, Lifeng Shang

分类: cs.CL

发布日期: 2025-05-30 (更新: 2025-11-10)

备注: Accepted as NeurIPS 2025 Spotlight

💡 一句话要点

DeepDiver：通过开放网络强化学习自适应调整搜索强度，提升LLM开放域问答能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 开放域问答 强化学习 信息检索 大型语言模型 自适应搜索 搜索强度缩放 WebPuzzle基准

📋 核心要点

现有LLM在开放域问答中，由于提示工程和监督微调的局限性，难以适应真实互联网环境下的信息检索需求。
DeepDiver通过强化学习框架，培养LLM的搜索强度缩放(SIS)能力，使其能够自适应地调整搜索频率和深度。
实验表明，DeepDiver框架下的7B模型在真实网络任务上可与671B参数的DeepSeek-R1模型性能相当，显著提升了LLM的开放域问答能力。

📝 摘要（中文）

信息检索需要迭代式证据收集和反思性推理，但大型语言模型(LLMs)在开放网络问答中仍然面临挑战。现有的提示工程和监督微调(SFT)方法受限于提示规则或训练语料，并且通常只在结构良好的维基百科数据源上进行评估，限制了其在真实世界中的适应性。我们引入了WebPuzzle，一个包含24k训练样本和275个测试样本的基准，用于评估LLM在真实互联网上的信息检索能力，涵盖维基百科和开放领域查询。基于7k WebPuzzle实例，我们开发了DeepDiver，一个强化学习(RL)框架，它培养了搜索强度缩放(SIS)能力——一种提升搜索频率和深度的能力，而不是满足于过度自信、证据不足的答案。通过SIS，Qwen2.5-7B-Instruct和Pangu-7B-Reasoner在真实网络任务上的性能可与671B参数的DeepSeek-R1相媲美。我们详细介绍了DeepDiver从冷启动SFT到精心设计的RL过程的课程，并表明其搜索策略可以从封闭式查询推广到开放式生成，例如长文写作。我们的结果推进了LLM中自适应信息检索的研究，并为未来的工作提供了一个严格的基准。

🔬 方法详解

问题定义：现有大型语言模型在开放域问答任务中，难以有效利用互联网信息。传统的prompting和监督微调方法依赖于固定的prompt规则或训练语料，无法根据问题的复杂度和已检索信息的质量动态调整搜索策略，导致答案的准确性和可靠性不足。现有benchmark也多集中于结构化的wiki数据，难以评估模型在真实开放网络环境下的表现。

核心思路：DeepDiver的核心思路是通过强化学习训练LLM，使其具备自适应调整搜索强度的能力，即Search Intensity Scaling (SIS)。模型不再依赖于预设的搜索次数或深度，而是根据当前状态（包括问题、已检索信息、模型置信度等）动态决定是否需要进行更深入的搜索。这种自适应性使得模型能够更有效地利用互联网信息，提高答案的准确性和可靠性。

技术框架：DeepDiver的整体框架包含以下几个主要阶段：1) 冷启动SFT：使用WebPuzzle数据集对LLM进行监督微调，使其具备初步的信息检索和问答能力。2) 强化学习训练：使用精心设计的奖励函数和环境，训练LLM的搜索策略。奖励函数鼓励模型进行有效的搜索，避免过度自信和证据不足的答案。环境模拟真实互联网环境，提供搜索API和信息检索结果。3) 搜索强度缩放(SIS)：在推理阶段，模型根据当前状态动态调整搜索强度。如果模型对当前答案的置信度较低，或者已检索信息不足，则会增加搜索频率和深度。

关键创新：DeepDiver的关键创新在于提出了Search Intensity Scaling (SIS)的概念，并通过强化学习训练LLM使其具备这种能力。与传统的固定搜索策略相比，SIS能够根据问题的复杂度和已检索信息的质量动态调整搜索策略，从而更有效地利用互联网信息。此外，WebPuzzle基准的提出也为评估LLM在真实开放网络环境下的信息检索能力提供了新的标准。

关键设计：DeepDiver的关键设计包括：1) WebPuzzle基准：包含24k训练样本和275个测试样本，涵盖维基百科和开放领域查询，用于评估LLM在真实互联网上的信息检索能力。2) 强化学习奖励函数：奖励函数鼓励模型进行有效的搜索，避免过度自信和证据不足的答案。具体来说，奖励函数可以包括准确性奖励、覆盖率奖励、效率奖励等。3) 搜索API和信息检索结果：环境模拟真实互联网环境，提供搜索API和信息检索结果，使模型能够学习如何有效地利用互联网信息。

🖼️ 关键图片

📊 实验亮点

DeepDiver框架下的Qwen2.5-7B-Instruct和Pangu-7B-Reasoner模型，通过搜索强度缩放(SIS)能力，在真实网络任务上的性能可与671B参数的DeepSeek-R1模型相媲美。这表明，通过强化学习训练，小模型也能在开放域问答任务中取得显著的性能提升，缩小与大模型之间的差距。

🎯 应用场景

DeepDiver的研究成果可应用于各种需要信息检索和问答的场景，例如智能客服、搜索引擎、知识库构建等。通过自适应调整搜索强度，LLM可以更有效地利用互联网信息，提供更准确、更可靠的答案。此外，该研究还可以促进LLM在长文写作、报告生成等开放式生成任务中的应用。

📄 摘要（原文）

Information seeking demands iterative evidence gathering and reflective reasoning, yet large language models (LLMs) still struggle with it in open-web question answering. Existing prompting and supervised fine-tuning (SFT) methods remain fixed by prompt rules or training corpora, and are usually benchmarked only on well-structured wiki sources, limiting real-world adaptability. We introduce WebPuzzle, a 24k-sample training and 275-sample test benchmark that evaluates information seeking on the live internet, across both wiki and open-domain queries. Leveraging 7k WebPuzzle instances, we develop DeepDiver, a reinforcement-learning (RL) framework that cultivates Search Intensity Scaling (SIS)-an emergent ability to escalate search frequency and depth instead of settling on overconfident, under-evidenced answers. With SIS, Qwen2.5-7B-Instruct and Pangu-7B-Reasoner attain performance on real-web tasks comparable to the 671B-parameter DeepSeek-R1. We detail DeepDiver's curriculum from cold-start SFT to a well designed RL procedure, and show that its seeking policy generalized from closed-ended queries to open-ended generation such as long-form writing. Our results advance adaptive information seeking in LLMs and provide a rigorous benchmark for future work.

DeepDiver: Adaptive Search Intensity Scaling via Open-Web Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理