A Comprehensive Survey on Reinforcement Learning-based Agentic Search: Foundations, Roles, Optimizations, Evaluations, and Applications

📄 arXiv: 2510.16724v2 📥 PDF

作者: Minhua Lin, Zongyu Wu, Zhichao Xu, Hui Liu, Xianfeng Tang, Qi He, Charu Aggarwal, Hui Liu, Xiang Zhang, Suhang Wang

分类: cs.AI, cs.CL

发布日期: 2025-10-19 (更新: 2025-10-27)

备注: 38 pages, 4 figures, 7 tables

🔗 代码/项目: GITHUB


💡 一句话要点

综述:基于强化学习的Agentic Search,填补了该领域系统性研究的空白。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 Agentic Search 大型语言模型 检索增强生成 信息检索

📋 核心要点

  1. 大型语言模型虽然强大,但受限于静态知识和幻觉问题,无法有效检索实时信息,限制了其应用。
  2. Agentic Search通过多步交互,使LLM具备规划、检索和反思能力,而强化学习则为自适应搜索提供了有效机制。
  3. 该综述首次全面概述了基于强化学习的Agentic Search,从功能、优化和应用三个维度组织并分析了该领域的研究。

📝 摘要(中文)

大型语言模型(LLMs)的出现通过开放式的自然语言交互改变了信息获取和推理方式。然而,LLMs仍然受到静态知识、事实幻觉以及无法检索实时或领域特定信息的限制。检索增强生成(RAG)通过将模型输出建立在外部证据的基础上缓解了这些问题,但传统的RAG流程通常是单轮和启发式的,缺乏对检索和推理的自适应控制。Agentic Search的最新进展通过使LLMs能够通过与搜索环境的多步交互进行规划、检索和反思来解决这些限制。在这个范式中,强化学习(RL)为自适应和自我改进的搜索行为提供了一种强大的机制。本综述提供了第一个关于基于RL的Agentic Search的全面概述,围绕三个互补的维度组织这个新兴领域:(i)RL的用途(功能角色),(ii)RL的使用方式(优化策略),以及(iii)RL的应用范围(优化范围)。我们总结了代表性的方法、评估协议和应用,并讨论了构建可靠和可扩展的RL驱动的Agentic Search系统的开放挑战和未来方向。我们希望这篇综述能够激发未来对RL和Agentic Search集成研究。我们的代码仓库可在https://github.com/ventr1c/Awesome-RL-based-Agentic-Search-Papers获取。

🔬 方法详解

问题定义:现有的大型语言模型在信息检索方面存在局限性,主要体现在无法获取最新的或特定领域的知识,并且容易产生“幻觉”。传统的检索增强生成(RAG)方法虽然可以缓解这些问题,但通常是单轮的、启发式的,缺乏自适应性,无法根据检索结果动态调整策略。因此,需要一种能够自主规划、检索和反思的Agentic Search方法,并利用强化学习来优化其搜索行为。

核心思路:本综述的核心思路是系统性地梳理和分析基于强化学习的Agentic Search方法。通过将该领域的研究按照RL的功能角色、优化策略和应用范围进行分类,从而为研究人员提供一个清晰的框架,了解现有方法的优缺点以及未来的发展方向。利用强化学习来训练agent,使其能够自主地与搜索环境交互,并根据反馈不断优化搜索策略。

技术框架:该综述并没有提出新的技术框架,而是对现有研究进行分类和总结。其组织结构主要包括以下几个部分:首先,介绍Agentic Search的基本概念和流程;其次,从RL的功能角色(如奖励函数设计、状态表示等)、优化策略(如不同的RL算法)和应用范围(如知识图谱搜索、网页搜索等)三个维度对现有方法进行分类和分析;最后,讨论了该领域面临的挑战和未来的研究方向。

关键创新:该综述的关键创新在于其系统性和全面性。它是第一个对基于强化学习的Agentic Search进行全面概述的综述,为研究人员提供了一个有价值的资源,帮助他们快速了解该领域的最新进展和未来的研究方向。通过对现有方法的分类和分析,揭示了不同方法之间的联系和区别,为未来的研究提供了新的思路。

关键设计:该综述的关键设计在于其分类框架,即从RL的功能角色、优化策略和应用范围三个维度对现有方法进行分类。这种分类方式能够帮助研究人员从不同的角度理解和比较不同的方法,从而更好地选择适合自己研究问题的解决方案。此外,该综述还对现有方法的评估协议和应用进行了总结,为研究人员提供了参考。

🖼️ 关键图片

img_0

📊 实验亮点

由于是综述文章,没有具体的实验结果。文章总结了现有研究的评估协议,并讨论了不同方法在不同任务上的表现。未来的研究可以借鉴这些评估协议,并在此基础上进行改进,以更全面地评估Agentic Search方法的性能。

🎯 应用场景

基于强化学习的Agentic Search具有广泛的应用前景,例如智能客服、知识图谱问答、网页搜索、推荐系统等。通过利用强化学习优化搜索策略,可以提高信息检索的效率和准确性,从而为用户提供更好的服务。此外,该技术还可以应用于自动化决策、智能规划等领域,具有重要的实际价值和未来影响。

📄 摘要(原文)

The advent of large language models (LLMs) has transformed information access and reasoning through open-ended natural language interaction. However, LLMs remain limited by static knowledge, factual hallucinations, and the inability to retrieve real-time or domain-specific information. Retrieval-Augmented Generation (RAG) mitigates these issues by grounding model outputs in external evidence, but traditional RAG pipelines are often single turn and heuristic, lacking adaptive control over retrieval and reasoning. Recent advances in agentic search address these limitations by enabling LLMs to plan, retrieve, and reflect through multi-step interaction with search environments. Within this paradigm, reinforcement learning (RL) offers a powerful mechanism for adaptive and self-improving search behavior. This survey provides the first comprehensive overview of \emph{RL-based agentic search}, organizing the emerging field along three complementary dimensions: (i) What RL is for (functional roles), (ii) How RL is used (optimization strategies), and (iii) Where RL is applied (scope of optimization). We summarize representative methods, evaluation protocols, and applications, and discuss open challenges and future directions toward building reliable and scalable RL driven agentic search systems. We hope this survey will inspire future research on the integration of RL and agentic search. Our repository is available at https://github.com/ventr1c/Awesome-RL-based-Agentic-Search-Papers.