DeepDiver: Adaptive Search Intensity Scaling via Open-Web Reinforcement Learning
作者: Wenxuan Shi, Haochen Tan, Chuqiao Kuang, Xiaoguang Li, Xiaozhe Ren, Chen Zhang, Hanting Chen, Yasheng Wang, Lu Hou, Lifeng Shang
分类: cs.CL
发布日期: 2025-05-30 (更新: 2025-11-10)
备注: Accepted as NeurIPS 2025 Spotlight
💡 一句话要点
DeepDiver:通过开放网络强化学习自适应调整搜索强度,提升LLM开放域问答能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放域问答 强化学习 信息检索 大型语言模型 自适应搜索 搜索强度缩放 WebPuzzle基准
📋 核心要点
- 现有LLM在开放域问答中,由于提示工程和监督微调的局限性,难以适应真实互联网环境下的信息检索需求。
- DeepDiver通过强化学习框架,培养LLM的搜索强度缩放(SIS)能力,使其能够自适应地调整搜索频率和深度。
- 实验表明,DeepDiver框架下的7B模型在真实网络任务上可与671B参数的DeepSeek-R1模型性能相当,显著提升了LLM的开放域问答能力。
📝 摘要(中文)
信息检索需要迭代式证据收集和反思性推理,但大型语言模型(LLMs)在开放网络问答中仍然面临挑战。现有的提示工程和监督微调(SFT)方法受限于提示规则或训练语料,并且通常只在结构良好的维基百科数据源上进行评估,限制了其在真实世界中的适应性。我们引入了WebPuzzle,一个包含24k训练样本和275个测试样本的基准,用于评估LLM在真实互联网上的信息检索能力,涵盖维基百科和开放领域查询。基于7k WebPuzzle实例,我们开发了DeepDiver,一个强化学习(RL)框架,它培养了搜索强度缩放(SIS)能力——一种提升搜索频率和深度的能力,而不是满足于过度自信、证据不足的答案。通过SIS,Qwen2.5-7B-Instruct和Pangu-7B-Reasoner在真实网络任务上的性能可与671B参数的DeepSeek-R1相媲美。我们详细介绍了DeepDiver从冷启动SFT到精心设计的RL过程的课程,并表明其搜索策略可以从封闭式查询推广到开放式生成,例如长文写作。我们的结果推进了LLM中自适应信息检索的研究,并为未来的工作提供了一个严格的基准。
🔬 方法详解
问题定义:现有大型语言模型在开放域问答任务中,难以有效利用互联网信息。传统的prompting和监督微调方法依赖于固定的prompt规则或训练语料,无法根据问题的复杂度和已检索信息的质量动态调整搜索策略,导致答案的准确性和可靠性不足。现有benchmark也多集中于结构化的wiki数据,难以评估模型在真实开放网络环境下的表现。
核心思路:DeepDiver的核心思路是通过强化学习训练LLM,使其具备自适应调整搜索强度的能力,即Search Intensity Scaling (SIS)。模型不再依赖于预设的搜索次数或深度,而是根据当前状态(包括问题、已检索信息、模型置信度等)动态决定是否需要进行更深入的搜索。这种自适应性使得模型能够更有效地利用互联网信息,提高答案的准确性和可靠性。
技术框架:DeepDiver的整体框架包含以下几个主要阶段:1) 冷启动SFT:使用WebPuzzle数据集对LLM进行监督微调,使其具备初步的信息检索和问答能力。2) 强化学习训练:使用精心设计的奖励函数和环境,训练LLM的搜索策略。奖励函数鼓励模型进行有效的搜索,避免过度自信和证据不足的答案。环境模拟真实互联网环境,提供搜索API和信息检索结果。3) 搜索强度缩放(SIS):在推理阶段,模型根据当前状态动态调整搜索强度。如果模型对当前答案的置信度较低,或者已检索信息不足,则会增加搜索频率和深度。
关键创新:DeepDiver的关键创新在于提出了Search Intensity Scaling (SIS)的概念,并通过强化学习训练LLM使其具备这种能力。与传统的固定搜索策略相比,SIS能够根据问题的复杂度和已检索信息的质量动态调整搜索策略,从而更有效地利用互联网信息。此外,WebPuzzle基准的提出也为评估LLM在真实开放网络环境下的信息检索能力提供了新的标准。
关键设计:DeepDiver的关键设计包括:1) WebPuzzle基准:包含24k训练样本和275个测试样本,涵盖维基百科和开放领域查询,用于评估LLM在真实互联网上的信息检索能力。2) 强化学习奖励函数:奖励函数鼓励模型进行有效的搜索,避免过度自信和证据不足的答案。具体来说,奖励函数可以包括准确性奖励、覆盖率奖励、效率奖励等。3) 搜索API和信息检索结果:环境模拟真实互联网环境,提供搜索API和信息检索结果,使模型能够学习如何有效地利用互联网信息。
🖼️ 关键图片
📊 实验亮点
DeepDiver框架下的Qwen2.5-7B-Instruct和Pangu-7B-Reasoner模型,通过搜索强度缩放(SIS)能力,在真实网络任务上的性能可与671B参数的DeepSeek-R1模型相媲美。这表明,通过强化学习训练,小模型也能在开放域问答任务中取得显著的性能提升,缩小与大模型之间的差距。
🎯 应用场景
DeepDiver的研究成果可应用于各种需要信息检索和问答的场景,例如智能客服、搜索引擎、知识库构建等。通过自适应调整搜索强度,LLM可以更有效地利用互联网信息,提供更准确、更可靠的答案。此外,该研究还可以促进LLM在长文写作、报告生成等开放式生成任务中的应用。
📄 摘要(原文)
Information seeking demands iterative evidence gathering and reflective reasoning, yet large language models (LLMs) still struggle with it in open-web question answering. Existing prompting and supervised fine-tuning (SFT) methods remain fixed by prompt rules or training corpora, and are usually benchmarked only on well-structured wiki sources, limiting real-world adaptability. We introduce WebPuzzle, a 24k-sample training and 275-sample test benchmark that evaluates information seeking on the live internet, across both wiki and open-domain queries. Leveraging 7k WebPuzzle instances, we develop DeepDiver, a reinforcement-learning (RL) framework that cultivates Search Intensity Scaling (SIS)-an emergent ability to escalate search frequency and depth instead of settling on overconfident, under-evidenced answers. With SIS, Qwen2.5-7B-Instruct and Pangu-7B-Reasoner attain performance on real-web tasks comparable to the 671B-parameter DeepSeek-R1. We detail DeepDiver's curriculum from cold-start SFT to a well designed RL procedure, and show that its seeking policy generalized from closed-ended queries to open-ended generation such as long-form writing. Our results advance adaptive information seeking in LLMs and provide a rigorous benchmark for future work.