ZeroSearch: Incentivize the Search Capability of LLMs without Searching

作者: Hao Sun, Zile Qiao, Jiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Yan Zhang, Fei Huang, Jingren Zhou

分类: cs.CL

发布日期: 2025-05-07 (更新: 2025-05-16)

💡 一句话要点

ZeroSearch：一种无需真实搜索即可提升LLM搜索能力的新型强化学习框架

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 信息检索 模拟搜索 课程学习

📋 核心要点

现有方法依赖真实搜索引擎，文档质量不可控，引入噪声，影响LLM搜索能力训练。
ZeroSearch通过模拟搜索，在训练中逐步降低文档质量，激发LLM在复杂检索场景下的推理能力。
实验表明，ZeroSearch能有效提升LLM搜索能力，14B检索模块性能甚至超越真实搜索引擎。

📝 摘要（中文）

为了提升大型语言模型(LLM)的推理和生成能力，有效的搜索能力至关重要。最近的研究探索了使用强化学习(RL)通过与真实环境中的实时搜索引擎交互来提高LLM的搜索能力。然而，这些方法面临两个主要挑战：(1)文档质量不可控：搜索引擎返回的文档质量通常是不可预测的，这给训练过程引入了噪声和不稳定性。(2)API成本过高：RL训练需要频繁的rollout，可能涉及数十万次搜索请求，这会产生巨大的API费用并严重限制可扩展性。为了解决这些挑战，我们引入了ZeroSearch，这是一种新颖的RL框架，它激励LLM使用真实搜索引擎的能力，但在训练期间使用模拟搜索。我们的方法首先进行轻量级的监督微调，将LLM转换为一个检索模块，该模块能够生成对查询有用和嘈杂的文档。在RL训练期间，我们采用基于课程的rollout策略，逐步降低生成文档的质量，通过将模型暴露于越来越具有挑战性的检索场景来逐步激发模型的推理能力。大量的实验表明，ZeroSearch有效地激励了LLM的搜索能力，使用一个3B LLM作为检索模块。值得注意的是，一个7B的检索模块实现了与真实搜索引擎相当的性能，而一个14B的检索模块甚至超过了它。此外，它在各种参数大小的基础模型和指令调整模型上都具有良好的泛化能力，并且与各种RL算法兼容。

🔬 方法详解

问题定义：现有方法依赖真实搜索引擎进行LLM搜索能力训练，但搜索引擎返回的文档质量参差不齐，引入噪声，导致训练不稳定。同时，频繁的API调用产生高昂的成本，限制了模型的可扩展性。

核心思路：ZeroSearch的核心在于通过模拟搜索来训练LLM，避免直接与真实搜索引擎交互。它首先将LLM微调为一个检索模块，然后通过强化学习，逐步降低检索模块生成的文档质量，模拟越来越困难的搜索场景，从而提升LLM的推理能力和对噪声数据的鲁棒性。

技术框架：ZeroSearch包含以下主要阶段：1) 监督微调阶段：使用轻量级的监督微调，将LLM转化为一个检索模块，能够根据查询生成相关和噪声文档。2) 强化学习训练阶段：采用基于课程的rollout策略，逐步降低检索模块生成的文档质量，模拟越来越具有挑战性的检索场景。3) 奖励函数设计：设计合适的奖励函数，鼓励LLM选择更有用的文档，抑制噪声文档的影响。

关键创新：ZeroSearch的关键创新在于使用模拟搜索代替真实搜索，解决了文档质量不可控和API成本过高的问题。通过课程学习，逐步增加训练难度，有效提升了LLM在复杂检索场景下的推理能力。

关键设计：在监督微调阶段，使用了轻量级的微调策略，避免过度拟合。在强化学习训练阶段，课程学习的难度递增策略至关重要，需要仔细设计。奖励函数的设计需要平衡相关文档和噪声文档的影响，避免模型过度依赖高质量文档。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ZeroSearch能够有效提升LLM的搜索能力。使用3B LLM作为检索模块，ZeroSearch能够有效激励LLM的搜索能力。更重要的是，一个7B的检索模块实现了与真实搜索引擎相当的性能，而一个14B的检索模块甚至超过了它。此外，该方法在不同参数规模的模型和不同类型的模型（基础模型和指令调整模型）上都表现出良好的泛化能力。

🎯 应用场景

ZeroSearch可应用于各种需要信息检索的LLM应用场景，例如问答系统、对话生成、知识图谱构建等。该方法降低了训练成本，提高了模型在复杂和噪声环境下的鲁棒性，具有广泛的应用前景，并可能推动LLM在信息检索领域的进一步发展。

📄 摘要（原文）

Effective information searching is essential for enhancing the reasoning and generation capabilities of large language models (LLMs). Recent research has explored using reinforcement learning (RL) to improve LLMs' search capabilities by interacting with live search engines in real-world environments. While these approaches show promising results, they face two major challenges: (1) Uncontrolled Document Quality: The quality of documents returned by search engines is often unpredictable, introducing noise and instability into the training process. (2) Prohibitively High API Costs: RL training requires frequent rollouts, potentially involving hundreds of thousands of search requests, which incur substantial API expenses and severely constrain scalability. To address these challenges, we introduce ZeroSearch, a novel RL framework that incentivizes the capabilities of LLMs to use a real search engine with simulated searches during training. Our approach begins with lightweight supervised fine-tuning to transform the LLM into a retrieval module capable of generating both useful and noisy documents in response to a query. During RL training, we employ a curriculum-based rollout strategy that incrementally degrades the quality of generated documents, progressively eliciting the model's reasoning ability by exposing it to increasingly challenging retrieval scenarios. Extensive experiments demonstrate that ZeroSearch effectively incentivizes the search capabilities of LLMs using a 3B LLM as the retrieval module. Remarkably, a 7B retrieval module achieves comparable performance to the real search engine, while a 14B retrieval module even surpasses it. Furthermore, it generalizes well across both base and instruction-tuned models of various parameter sizes and is compatible with a wide range of RL algorithms.

ZeroSearch: Incentivize the Search Capability of LLMs without Searching

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理