Reinforcement Learning for Long-Horizon Multi-Turn Search Agents

作者: Vivek Kalyan, Martin Andrews

分类: cs.CL

发布日期: 2025-10-28

备注: 4 pages plus references and appendices. Accepted into the First Workshop on Multi-Turn Interactions in Large Language Models at NeurIPS 2025

💡 一句话要点

提出基于强化学习的长程多轮搜索Agent，显著提升法律文档搜索精度。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 多轮搜索 法律文档检索 Agent 长程交互 策略学习

📋 核心要点

现有基于Prompt的LLM Agent在复杂任务中表现良好，但缺乏从经验中学习的能力，性能提升受限。
提出使用强化学习训练LLM Agent，使其能够通过与环境交互学习，从而提升解决复杂任务的能力。
实验表明，RL训练的Agent在法律文档搜索任务中显著优于现有模型，尤其是在允许更多交互轮数的情况下。

📝 摘要（中文）

本文研究了如何利用大型语言模型（LLM）Agent通过多轮交互和工具使用来解决复杂任务。虽然基于Prompt的方法已经取得了不错的性能，但本文证明了强化学习（RL）可以通过从经验中学习，进一步显著提升Agent的能力。在法律文档搜索基准测试上的实验表明，经过RL训练的140亿参数模型优于前沿模型（准确率分别为85%和78%）。此外，我们还探索了在训练和测试期间限制交互轮数的机制，结果表明，允许Agent在更长的多轮交互范围内操作可以获得更好的结果。

🔬 方法详解

问题定义：论文旨在解决LLM Agent在长程多轮搜索任务中，如何有效利用经验进行学习，从而提升搜索准确率的问题。现有基于Prompt的方法虽然有效，但缺乏从错误中学习和优化策略的能力，难以达到最优性能。

核心思路：论文的核心思路是利用强化学习（RL）训练LLM Agent，使其能够通过与环境（例如法律文档数据库）的交互，学习到更有效的搜索策略。通过奖励机制，鼓励Agent进行更准确、更高效的搜索。

技术框架：整体框架包含一个LLM Agent和一个环境。Agent根据当前状态（例如搜索历史、用户query）选择一个动作（例如搜索关键词、调整搜索策略），环境执行该动作并返回新的状态和奖励。使用RL算法（具体算法未知）训练Agent，使其最大化累积奖励。训练过程中，可以限制交互轮数，以研究不同交互深度对性能的影响。

关键创新：关键创新在于将强化学习引入到LLM Agent的训练中，使其能够从经验中学习，克服了传统Prompt方法的局限性。通过设计合适的奖励函数，引导Agent学习到更优的搜索策略。

关键设计：论文的关键设计包括：1) 如何将法律文档搜索任务建模为马尔可夫决策过程（MDP）；2) 如何设计奖励函数，以鼓励准确和高效的搜索；3) 如何选择合适的RL算法进行训练（论文中未明确指出具体算法，属于未知信息）；4) 如何设置训练和测试期间的交互轮数限制。

🖼️ 关键图片

📊 实验亮点

实验结果表明，经过RL训练的140亿参数模型在法律文档搜索基准测试中取得了85%的准确率，显著优于前沿模型（78%）。此外，研究还发现，允许Agent在更长的多轮交互范围内操作可以获得更好的结果，表明RL能够有效利用多轮交互信息。

🎯 应用场景

该研究成果可应用于各种需要长程多轮交互的搜索任务，例如法律、医学、金融等领域的文档检索、智能客服、对话式推荐系统等。通过强化学习训练Agent，可以显著提升搜索效率和准确率，为用户提供更优质的信息服务，并降低人工成本。

📄 摘要（原文）

Large Language Model (LLM) agents can leverage multiple turns and tools to solve complex tasks, with prompt-based approaches achieving strong performance. This work demonstrates that Reinforcement Learning (RL) can push capabilities significantly further by learning from experience. Through experiments on a legal document search benchmark, we show that our RL-trained 14 Billion parameter model outperforms frontier class models (85% vs 78% accuracy). In addition, we explore turn-restricted regimes, during training and at test-time, that show these agents achieve better results if allowed to operate over longer multi-turn horizons.

Reinforcement Learning for Long-Horizon Multi-Turn Search Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理