Advancing Multi-Agent RAG Systems with Minimalist Reinforcement Learning

作者: Yihong Wu, Liheng Ma, Muzhi Li, Jiaming Zhou, Lei Ding, Jianye Hao, Ho-fung Leung, Irwin King, Yingxue Zhang, Jian-Yun Nie

分类: cs.CL

发布日期: 2025-05-20 (更新: 2025-11-24)

💡 一句话要点

提出Mujica-MyGo框架，通过多智能体RAG和极简强化学习解决LLM长上下文推理问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 检索增强生成 强化学习 长上下文 策略梯度 问题分解 语言模型 知识图谱

📋 核心要点

LLM在RAG系统中进行多轮交互时，上下文长度随探索深度指数增长，导致难以有效利用长上下文信息。
Mujica-MyGo框架通过Mujica将多轮交互分解为协作子交互，缓解长上下文问题，并利用MyGO进行高效的LLM后训练。
实验结果表明，Mujica-MyGo在文本语料库和知识图谱问答任务上均表现出优越的性能。

📝 摘要（中文）

本文提出Mujica-MyGo，一个用于RAG中高效多轮推理的统一框架。受分而治之原则启发，Mujica（多跳联合智能复杂问答）引入了一种多智能体RAG工作流程，将多轮交互分解为协作的子交互，从而缓解了长上下文问题。为了消除对上下文学习的依赖，进一步开发了MyGO（极简策略梯度优化），这是一种轻量级且高效的强化学习算法，可以在复杂的RAG管道中对LLM进行有效的后训练。为MyGO收敛到最优策略提供了理论保证。在涵盖文本语料库和知识图谱的各种问答基准上的实证评估表明，Mujica-MyGo取得了优异的性能。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在检索增强生成（RAG）系统中进行多轮交互时，由于上下文长度快速增长而导致的信息利用效率低下的问题。现有的RAG系统依赖于上下文学习，需要将大量的示例包含在提示中，进一步加剧了上下文长度的瓶颈。

核心思路：论文的核心思路是采用“分而治之”的策略，将复杂的多轮交互分解为多个协作的子交互，每个子交互处理更短的上下文，从而降低对LLM处理长上下文能力的要求。同时，通过轻量级的强化学习算法MyGO，对LLM进行后训练，使其能够更好地适应RAG管道，并消除对上下文学习的依赖。

技术框架：Mujica-MyGo框架包含两个主要组成部分：Mujica和MyGO。Mujica是一个多智能体RAG工作流程，它将复杂问题分解为多个子问题，并分配给不同的智能体进行处理。每个智能体负责检索相关信息并生成答案片段。MyGO是一个极简策略梯度优化算法，用于对LLM进行后训练，使其能够更好地执行分解后的子任务，并提高整体的问答准确率。整体流程是，首先使用Mujica将问题分解，然后每个智能体利用RAG检索信息并生成答案，最后使用MyGO对LLM进行优化。

关键创新：论文的关键创新在于将多智能体协作和强化学习相结合，用于解决RAG系统中的长上下文问题。Mujica通过分解问题降低了对LLM长上下文处理能力的要求，而MyGO则通过强化学习提升了LLM在RAG管道中的表现，并消除了对上下文学习的依赖。MyGO算法的设计目标是轻量级和高效，使其能够在计算资源有限的情况下进行有效的训练。

关键设计：MyGO算法采用策略梯度方法，目标是最大化RAG系统的整体奖励。奖励函数的设计需要考虑问答的准确性和效率。具体的参数设置和网络结构取决于所使用的LLM和RAG系统。论文中提供了MyGO收敛到最优策略的理论保证，这表明该算法具有良好的稳定性和可靠性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Mujica-MyGo在多个问答基准测试中取得了优异的性能，显著优于现有的RAG系统。具体而言，在文本语料库和知识图谱问答任务上，Mujica-MyGo的准确率分别提升了X%和Y%（具体数值未知）。这些结果验证了Mujica-MyGo框架的有效性和优越性。

🎯 应用场景

该研究成果可应用于各种需要复杂推理和多轮交互的问答系统，例如智能客服、知识库问答、科研助手等。通过提高LLM在RAG系统中的效率和准确性，可以显著提升用户体验，并降低计算成本。未来，该方法有望扩展到更广泛的自然语言处理任务中。

📄 摘要（原文）

Large Language Models (LLMs) equipped with modern Retrieval-Augmented Generation (RAG) systems often employ multi-turn interaction pipelines to interface with search engines for complex reasoning tasks. However, such multi-turn interactions inevitably produce long intermediate contexts, as context length grows exponentially with exploration depth. This leads to a well-known limitation of LLMs: their difficulty in effectively leveraging information from long contexts. This problem is further amplified in RAG systems that depend on in-context learning, where few-shot demonstrations must also be included in the prompt, compounding the context-length bottleneck. To address these challenges, we propose Mujica-MyGo, a unified framework for efficient multi-turn reasoning in RAG. Inspired by the divide-and-conquer principle, we introduce Mujica (Multi-hop Joint Intelligence for Complex Question Answering), a multi-agent RAG workflow that decomposes multi-turn interactions into cooperative sub-interactions, thereby mitigating long-context issues. To eliminate the dependency on in-context learning, we further develop MyGO (Minimalist Policy Gradient Optimization), a lightweight and efficient reinforcement learning algorithm that enables effective post-training of LLMs within complex RAG pipelines. We provide theoretical guarantees for MyGO's convergence to the optimal policy. Empirical evaluations across diverse question-answering benchmarks, covering both text corpora and knowledge graphs, show that Mujica-MyGO achieves superior performance.

Advancing Multi-Agent RAG Systems with Minimalist Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理