Learning to Deliberate: Meta-policy Collaboration for Agentic LLMs with Multi-agent Reinforcement Learning
作者: Wei Yang, Jesse Thomason
分类: cs.AI, cs.MA
发布日期: 2025-09-04 (更新: 2025-12-08)
💡 一句话要点
提出MPDF框架,通过元策略协作提升Agentic LLM在复杂推理任务中的性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 大型语言模型 元策略学习 强化学习 复杂推理
📋 核心要点
- 现有LLM多智能体系统依赖固定协作协议,忽略了智能体内部的自适应审议能力,限制了复杂推理性能。
- MPDF框架使智能体学习关于坚持、改进和让步等元认知动作的去中心化策略,实现动态协作。
- SoftRankPO算法通过奖励排名稳定训练过程,MPDF在多个推理任务上相比现有方法提升4-5%准确率。
📝 摘要(中文)
大型语言模型(LLM)的多智能体系统在复杂推理方面展现出潜力,但其有效性常受限于固定的协作协议。这些框架通常侧重于宏观层面的编排,而忽略了智能体内部的审议能力。这种关键的元认知盲点将智能体视为被动的执行者,无法根据内部认知状态(如不确定性或置信度)来调整其策略。我们引入了元策略审议框架(MPDF),其中智能体学习关于一组高级元认知动作(坚持、改进和让步)的去中心化策略。为了克服传统策略梯度在这种环境中的不稳定性,我们开发了一种新的强化学习算法SoftRankPO。SoftRankPO通过基于平滑正态分位数映射的奖励排名来塑造优势,从而稳定训练,使学习过程对奖励方差具有鲁棒性。实验表明,与六种最先进的启发式和基于学习的多智能体推理算法相比,具有SoftRankPO的MPDF在五个数学和一般推理基准测试中实现了4-5%的平均准确率绝对提升。我们的工作提出了一种为多智能体LLM系统学习自适应元认知策略的范例,将重点从设计固定协议转移到学习动态审议策略。
🔬 方法详解
问题定义:现有基于LLM的多智能体系统在解决复杂推理问题时,通常采用预定义的、静态的协作协议。这些协议缺乏灵活性,无法使智能体根据自身的状态(例如,对当前答案的置信度)动态调整策略。这种缺乏自适应性的问题导致智能体无法有效地利用彼此的知识和能力,从而限制了整体的推理性能。
核心思路:论文的核心思路是赋予智能体元认知能力,使其能够学习如何进行协作。具体来说,每个智能体学习一个元策略,该策略决定了智能体在每个时间步应该采取的元认知动作,例如“坚持当前答案”、“改进当前答案”或“让步给其他智能体”。通过学习这些元策略,智能体可以根据自身的状态和环境动态地调整其协作行为,从而提高整体的推理性能。
技术框架:MPDF框架包含多个LLM智能体,每个智能体都配备一个元策略。在每个时间步,每个智能体首先根据其当前状态(例如,历史对话、当前答案、置信度)选择一个元认知动作。然后,根据所选择的动作,智能体执行相应的操作,例如生成新的答案、修改现有答案或接受其他智能体的答案。所有智能体的动作共同影响环境的状态,并产生一个奖励信号,用于训练元策略。为了稳定训练过程,论文提出了SoftRankPO算法。
关键创新:论文的关键创新在于提出了MPDF框架,该框架允许智能体学习自适应的元策略,从而实现更有效的协作。此外,论文还提出了SoftRankPO算法,该算法通过基于奖励排名的优势函数来稳定训练过程,使其对奖励方差具有鲁棒性。
关键设计:SoftRankPO算法的关键设计在于使用平滑正态分位数来映射奖励排名。具体来说,算法首先计算所有智能体的奖励排名,然后将这些排名映射到标准正态分布的分位数。这些分位数被用作优势函数的权重,从而使算法能够更有效地利用奖励信息,并稳定训练过程。此外,元策略通常使用小型神经网络实现,输入包括智能体的内部状态(例如,置信度、不确定性)和外部信息(例如,其他智能体的输出)。
📊 实验亮点
实验结果表明,MPDF框架在五个数学和一般推理基准测试中,相比六种最先进的启发式和基于学习的多智能体推理算法,实现了4-5%的平均准确率绝对提升。这表明MPDF框架能够有效地学习自适应的协作策略,并显著提高多智能体系统的推理性能。
🎯 应用场景
该研究成果可应用于需要多智能体协作的复杂推理任务,例如科学发现、软件开发、金融分析等。通过学习自适应的协作策略,智能体可以更有效地利用彼此的知识和能力,从而提高解决问题的效率和准确性。此外,该方法还可以扩展到其他类型的智能体系统,例如机器人团队和自动驾驶车辆。
📄 摘要(原文)
Multi-agent systems of large language models (LLMs) show promise for complex reasoning, but their effectiveness is often limited by fixed collaboration protocols. These frameworks typically focus on macro-level orchestration while overlooking agents' internal deliberative capabilities. This critical meta-cognitive blindspot treats agents as passive executors unable to adapt their strategy based on internal cognitive states like uncertainty or confidence. We introduce the Meta-Policy Deliberation Framework (MPDF), where agents learn a decentralized policy over a set of high-level meta-cognitive actions: Persist, Refine, and Concede. To overcome the instability of traditional policy gradients in this setting, we develop SoftRankPO, a novel reinforcement learning algorithm. SoftRankPO stabilizes training by shaping advantages based on the rank of rewards mapped through smooth normal quantiles, making the learning process robust to reward variance. Experiments show that MPDF with SoftRankPO achieves a a 4-5% absolute gain in average accuracy across five mathematical and general reasoning benchmarks compared to six state-of-the-art heuristic and learning-based multi-agent reasoning algorithms. Our work presents a paradigm for learning adaptive, meta-cognitive policies for multi-agent LLM systems, shifting the focus from designing fixed protocols to learning dynamic, deliberative strategies.