R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

作者: Huatong Song, Jinhao Jiang, Yingqian Min, Jie Chen, Zhipeng Chen, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen

分类: cs.AI, cs.CL, cs.IR

发布日期: 2025-03-07 (更新: 2025-03-18)

💡 一句话要点

R1-Searcher：通过强化学习激励LLM的搜索能力，提升知识密集型任务性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 信息检索 知识密集型任务 检索增强生成

📋 核心要点

现有大型语言模型在知识密集型任务中依赖内部知识，容易产生不准确和幻觉。
R1-Searcher 提出一种基于结果的两阶段强化学习方法，使 LLM 能够自主调用外部搜索系统。
实验表明，R1-Searcher 显著优于以往的 RAG 方法，甚至可以与闭源的 GPT-4o-mini 相媲美。

📝 摘要（中文）

现有的大型推理模型(LRM)已显示出强化学习(RL)在增强大型语言模型(LLM)复杂推理能力方面的潜力。尽管它们在数学和编码等具有挑战性的任务上取得了显著的性能，但它们通常依赖于内部知识来解决问题，这对于时间敏感或知识密集型问题可能不足，从而导致不准确和幻觉。为了解决这个问题，我们提出了 extbf{R1-Searcher}，一种新颖的基于结果的两阶段RL方法，旨在增强LLM的搜索能力。该方法允许LLM自主调用外部搜索系统，以便在推理过程中访问额外的知识。我们的框架完全依赖于RL，不需要过程奖励或冷启动的知识蒸馏，从而有效地推广到领域外数据集，并支持基础模型和指令模型。实验表明，我们的方法显著优于以往强大的RAG方法，甚至可以与闭源的GPT-4o-mini相媲美。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在处理知识密集型和时效性问题时，由于过度依赖内部知识而导致的知识不足和幻觉问题。现有方法，如检索增强生成（RAG），通常需要复杂的奖励设计或知识蒸馏，泛化能力有限。

核心思路：R1-Searcher 的核心思路是通过强化学习，激励 LLM 自主地利用外部搜索系统来获取解决问题所需的知识。通过两阶段的训练，模型学会何时以及如何有效地进行搜索，从而减少对内部知识的依赖，提高答案的准确性和可靠性。

技术框架：R1-Searcher 采用两阶段的强化学习框架。第一阶段是“搜索策略学习”，训练 LLM 决定是否需要进行搜索以及搜索查询的内容。第二阶段是“答案生成学习”，训练 LLM 基于搜索结果生成最终答案。整个流程包括：1) LLM 接收问题；2) LLM 决定是否搜索并生成查询；3) 使用外部搜索引擎获取相关信息；4) LLM 整合搜索结果并生成答案；5) 根据答案的正确性给予奖励，并使用强化学习算法更新模型。

关键创新：R1-Searcher 的关键创新在于其完全基于结果的强化学习方法，避免了手动设计过程奖励或进行知识蒸馏。这种方法使得模型能够更好地泛化到不同的数据集和任务，并且可以应用于基础模型和指令模型。此外，两阶段的训练方式使得模型能够更有效地学习搜索策略和答案生成。

关键设计：R1-Searcher 使用 REINFORCE 算法进行强化学习。奖励函数基于答案的正确性进行设计，正确答案获得正奖励，错误答案获得负奖励。在搜索策略学习阶段，模型输出一个概率值，表示是否进行搜索。在答案生成学习阶段，模型将搜索结果作为输入，生成最终答案。具体的网络结构和参数设置取决于所使用的 LLM。

🖼️ 关键图片

📊 实验亮点

R1-Searcher 在多个知识密集型任务上取得了显著的性能提升，超越了现有的 RAG 方法，甚至可以与闭源的 GPT-4o-mini 相媲美。实验结果表明，R1-Searcher 能够有效地利用外部知识，提高答案的准确性和可靠性，并且具有良好的泛化能力。

🎯 应用场景

R1-Searcher 可应用于各种需要实时信息或专业知识的场景，例如智能客服、问答系统、内容创作和研究助手。通过增强 LLM 的搜索能力，可以提高这些应用在处理复杂问题时的准确性和可靠性，减少幻觉，并提供更具价值的信息。

📄 摘要（原文）

Existing Large Reasoning Models (LRMs) have shown the potential of reinforcement learning (RL) to enhance the complex reasoning capabilities of Large Language Models~(LLMs). While they achieve remarkable performance on challenging tasks such as mathematics and coding, they often rely on their internal knowledge to solve problems, which can be inadequate for time-sensitive or knowledge-intensive questions, leading to inaccuracies and hallucinations. To address this, we propose \textbf{R1-Searcher}, a novel two-stage outcome-based RL approach designed to enhance the search capabilities of LLMs. This method allows LLMs to autonomously invoke external search systems to access additional knowledge during the reasoning process. Our framework relies exclusively on RL, without requiring process rewards or distillation for a cold start. % effectively generalizing to out-of-domain datasets and supporting both Base and Instruct models. Our experiments demonstrate that our method significantly outperforms previous strong RAG methods, even when compared to the closed-source GPT-4o-mini.

R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理