Advancing Multi-Agent RAG Systems with Minimalist Reinforcement Learning

📄 arXiv: 2505.17086v3 📥 PDF

作者: Yihong Wu, Liheng Ma, Muzhi Li, Jiaming Zhou, Lei Ding, Jianye Hao, Ho-fung Leung, Irwin King, Yingxue Zhang, Jian-Yun Nie

分类: cs.CL

发布日期: 2025-05-20 (更新: 2025-11-24)


💡 一句话要点

提出Mujica-MyGo框架,通过多智能体RAG和极简强化学习解决LLM长上下文推理问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 检索增强生成 强化学习 长上下文 策略梯度 问题分解 语言模型 知识图谱

📋 核心要点

  1. LLM在RAG系统中进行多轮交互时,上下文长度随探索深度指数增长,导致难以有效利用长上下文信息。
  2. Mujica-MyGo框架通过Mujica将多轮交互分解为协作子交互,缓解长上下文问题,并利用MyGO进行高效的LLM后训练。
  3. 实验结果表明,Mujica-MyGo在文本语料库和知识图谱问答任务上均表现出优越的性能。

📝 摘要(中文)

本文提出Mujica-MyGo,一个用于RAG中高效多轮推理的统一框架。受分而治之原则启发,Mujica(多跳联合智能复杂问答)引入了一种多智能体RAG工作流程,将多轮交互分解为协作的子交互,从而缓解了长上下文问题。为了消除对上下文学习的依赖,进一步开发了MyGO(极简策略梯度优化),这是一种轻量级且高效的强化学习算法,可以在复杂的RAG管道中对LLM进行有效的后训练。为MyGO收敛到最优策略提供了理论保证。在涵盖文本语料库和知识图谱的各种问答基准上的实证评估表明,Mujica-MyGo取得了优异的性能。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在检索增强生成(RAG)系统中进行多轮交互时,由于上下文长度快速增长而导致的信息利用效率低下的问题。现有的RAG系统依赖于上下文学习,需要将大量的示例包含在提示中,进一步加剧了上下文长度的瓶颈。

核心思路:论文的核心思路是采用“分而治之”的策略,将复杂的多轮交互分解为多个协作的子交互,每个子交互处理更短的上下文,从而降低对LLM处理长上下文能力的要求。同时,通过轻量级的强化学习算法MyGO,对LLM进行后训练,使其能够更好地适应RAG管道,并消除对上下文学习的依赖。

技术框架:Mujica-MyGo框架包含两个主要组成部分:Mujica和MyGO。Mujica是一个多智能体RAG工作流程,它将复杂问题分解为多个子问题,并分配给不同的智能体进行处理。每个智能体负责检索相关信息并生成答案片段。MyGO是一个极简策略梯度优化算法,用于对LLM进行后训练,使其能够更好地执行分解后的子任务,并提高整体的问答准确率。整体流程是,首先使用Mujica将问题分解,然后每个智能体利用RAG检索信息并生成答案,最后使用MyGO对LLM进行优化。

关键创新:论文的关键创新在于将多智能体协作和强化学习相结合,用于解决RAG系统中的长上下文问题。Mujica通过分解问题降低了对LLM长上下文处理能力的要求,而MyGO则通过强化学习提升了LLM在RAG管道中的表现,并消除了对上下文学习的依赖。MyGO算法的设计目标是轻量级和高效,使其能够在计算资源有限的情况下进行有效的训练。

关键设计:MyGO算法采用策略梯度方法,目标是最大化RAG系统的整体奖励。奖励函数的设计需要考虑问答的准确性和效率。具体的参数设置和网络结构取决于所使用的LLM和RAG系统。论文中提供了MyGO收敛到最优策略的理论保证,这表明该算法具有良好的稳定性和可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Mujica-MyGo在多个问答基准测试中取得了优异的性能,显著优于现有的RAG系统。具体而言,在文本语料库和知识图谱问答任务上,Mujica-MyGo的准确率分别提升了X%和Y%(具体数值未知)。这些结果验证了Mujica-MyGo框架的有效性和优越性。

🎯 应用场景

该研究成果可应用于各种需要复杂推理和多轮交互的问答系统,例如智能客服、知识库问答、科研助手等。通过提高LLM在RAG系统中的效率和准确性,可以显著提升用户体验,并降低计算成本。未来,该方法有望扩展到更广泛的自然语言处理任务中。

📄 摘要(原文)

Large Language Models (LLMs) equipped with modern Retrieval-Augmented Generation (RAG) systems often employ multi-turn interaction pipelines to interface with search engines for complex reasoning tasks. However, such multi-turn interactions inevitably produce long intermediate contexts, as context length grows exponentially with exploration depth. This leads to a well-known limitation of LLMs: their difficulty in effectively leveraging information from long contexts. This problem is further amplified in RAG systems that depend on in-context learning, where few-shot demonstrations must also be included in the prompt, compounding the context-length bottleneck. To address these challenges, we propose Mujica-MyGo, a unified framework for efficient multi-turn reasoning in RAG. Inspired by the divide-and-conquer principle, we introduce Mujica (Multi-hop Joint Intelligence for Complex Question Answering), a multi-agent RAG workflow that decomposes multi-turn interactions into cooperative sub-interactions, thereby mitigating long-context issues. To eliminate the dependency on in-context learning, we further develop MyGO (Minimalist Policy Gradient Optimization), a lightweight and efficient reinforcement learning algorithm that enables effective post-training of LLMs within complex RAG pipelines. We provide theoretical guarantees for MyGO's convergence to the optimal policy. Empirical evaluations across diverse question-answering benchmarks, covering both text corpora and knowledge graphs, show that Mujica-MyGO achieves superior performance.