ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning

📄 arXiv: 2503.19470v3 📥 PDF

作者: Mingyang Chen, Linzhuang Sun, Tianpeng Li, Haoze Sun, Yijie Zhou, Chenzheng Zhu, Haofen Wang, Jeff Z. Pan, Wen Zhang, Huajun Chen, Fan Yang, Zenan Zhou, Weipeng Chen

分类: cs.AI, cs.CL

发布日期: 2025-03-25 (更新: 2025-09-23)

备注: Accepted to NeurIPS 2025


💡 一句话要点

提出ReSearch,通过强化学习训练LLM进行基于搜索的推理,无需监督数据。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 搜索推理 多跳推理 知识检索

📋 核心要点

  1. 现有LLM难以有效整合推理与外部搜索,尤其是在复杂的多跳问题中,需要多次检索。
  2. ReSearch通过强化学习训练LLM,将搜索操作融入推理链,无需推理步骤的监督数据。
  3. 实验表明,ReSearch在多个基准测试中具有强大的泛化能力,并能激发LLM的反思和自我纠正能力。

📝 摘要(中文)

大型语言模型(LLMs)在推理方面表现出卓越的能力,例如OpenAI-o1和DeepSeek-R1的成功。然而,将推理与外部搜索过程相结合仍然具有挑战性,特别是对于需要多个检索步骤的复杂多跳问题。我们提出了ReSearch,这是一个新颖的框架,通过强化学习训练LLMs进行基于搜索的推理,而无需任何关于推理步骤的监督数据。我们的方法将搜索操作视为推理链的组成部分,其中何时以及如何执行搜索由基于文本的思考指导,搜索结果随后影响进一步的推理。我们在Qwen2.5-7B(-Instruct)和Qwen2.5-32B(-Instruct)模型上训练ReSearch,并进行了广泛的实验。尽管仅在一个数据集上进行训练,但我们的模型在各种基准测试中表现出强大的泛化能力。分析表明,ReSearch在强化学习过程中自然地引发了高级推理能力,例如反思和自我纠正。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在复杂推理任务中,如何有效利用外部搜索信息的问题。现有方法通常难以将推理过程与搜索过程有效结合,尤其是在需要多次检索的多跳问题中,导致推理效果不佳。此外,现有方法往往需要大量的监督数据来指导推理步骤,成本高昂。

核心思路:ReSearch的核心思路是将搜索操作视为推理过程的组成部分,通过强化学习训练LLM自主决定何时以及如何进行搜索。LLM根据当前的推理状态生成搜索query,并利用搜索结果指导后续的推理步骤。这种方法无需对推理步骤进行监督,而是通过奖励机制鼓励LLM学习有效的搜索和推理策略。

技术框架:ReSearch框架主要包含以下几个模块:1) LLM推理模块:负责根据当前状态生成推理步骤和搜索query;2) 搜索模块:根据LLM生成的query进行外部搜索,并返回搜索结果;3) 奖励模块:根据LLM的推理结果和搜索行为,计算奖励信号,用于指导强化学习;4) 强化学习模块:使用奖励信号更新LLM的策略,使其能够更好地进行搜索和推理。整个流程是一个迭代的过程,LLM不断与环境交互,通过强化学习不断优化自身的搜索和推理能力。

关键创新:ReSearch的关键创新在于将搜索操作融入到LLM的推理过程中,并通过强化学习进行端到端的训练。与现有方法相比,ReSearch无需对推理步骤进行监督,而是通过奖励机制引导LLM学习有效的搜索和推理策略。此外,ReSearch还能够激发LLM的反思和自我纠正能力,使其能够更好地处理复杂推理任务。

关键设计:ReSearch使用Qwen2.5系列模型作为基础LLM,并采用PPO(Proximal Policy Optimization)算法进行强化学习。奖励函数的设计至关重要,论文中使用了基于任务完成度的奖励,以及对搜索行为的惩罚,以鼓励LLM进行高效的搜索。此外,论文还探索了不同的搜索策略和query生成方法,以提高搜索结果的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReSearch在多个基准测试中取得了显著的成果,例如在某些数据集上,ReSearch的性能超过了经过监督学习训练的模型。实验结果表明,ReSearch具有强大的泛化能力,即使在未见过的任务上也能表现出良好的性能。此外,分析表明,ReSearch能够激发LLM的反思和自我纠正能力,使其能够更好地处理复杂推理任务。

🎯 应用场景

ReSearch具有广泛的应用前景,例如问答系统、知识图谱推理、智能助手等。它可以帮助LLM更好地利用外部知识,提高复杂推理任务的准确性和效率。此外,ReSearch还可以应用于需要多次检索和推理的领域,例如科学研究、金融分析等,为用户提供更智能、更高效的服务。

📄 摘要(原文)

Large Language Models (LLMs) have shown remarkable capabilities in reasoning, exemplified by the success of OpenAI-o1 and DeepSeek-R1. However, integrating reasoning with external search processes remains challenging, especially for complex multi-hop questions requiring multiple retrieval steps. We propose ReSearch, a novel framework that trains LLMs to Reason with Search via reinforcement learning without using any supervised data on reasoning steps. Our approach treats search operations as integral components of the reasoning chain, where when and how to perform searches is guided by text-based thinking, and search results subsequently influence further reasoning. We train ReSearch on Qwen2.5-7B(-Instruct) and Qwen2.5-32B(-Instruct) models and conduct extensive experiments. Despite being trained on only one dataset, our models demonstrate strong generalizability across various benchmarks. Analysis reveals that ReSearch naturally elicits advanced reasoning capabilities such as reflection and self-correction during the reinforcement learning process.