Bridging the Capability Gap: Joint Alignment Tuning for Harmonizing LLM-based Multi-Agent Systems
作者: Minghang Zhu, Zhengliang Shi, Zhiwei Xu, Shiguang Wu, Lingjie Wang, Pengjie Ren, Zhaochun Ren, Zhumin Chen
分类: cs.CL
发布日期: 2025-09-11
备注: EMNLP 2025 Findings
💡 一句话要点
提出MOAT框架,通过联合对齐调整提升LLM多智能体系统协作能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 大型语言模型 联合对齐 迭代优化 工具使用 智能体协作 规划智能体 执行智能体
📋 核心要点
- 现有方法独立微调多智能体系统中的各个智能体,导致智能体间能力不匹配,协作效果差。
- MOAT框架通过迭代对齐规划智能体和执行智能体,优化子目标生成和动作执行,提升整体协作能力。
- 实验结果表明,MOAT在多个基准测试中显著优于现有方法,在已见和未见任务上均有提升。
📝 摘要(中文)
大型语言模型(LLMs)的发展使得构建多智能体系统成为可能,通过将复杂任务分解为专门的智能体来解决,例如规划智能体生成子目标,执行智能体执行工具使用动作。现有方法通常独立地微调这些智能体,导致智能体之间存在能力差距,协调性差。为了解决这个问题,我们提出了MOAT,一个多智能体联合对齐调整框架,通过迭代对齐来提高智能体之间的协作。MOAT在两个关键阶段之间交替进行:(1)规划智能体对齐,优化规划智能体以生成更好地指导执行智能体的子目标序列;(2)执行智能体改进,使用智能体自身生成的各种子目标-动作对来微调执行智能体,以增强其泛化能力。理论分析证明,MOAT确保了一个非递减和逐步收敛的训练过程。在六个基准测试上的实验表明,MOAT优于最先进的基线,在已见任务上平均提高了3.1%,在未见任务上平均提高了4.4%。
🔬 方法详解
问题定义:论文旨在解决基于LLM的多智能体系统中,由于各个智能体独立训练导致的协作能力不足的问题。现有方法通常分别微调规划智能体和执行智能体,忽略了它们之间的依赖关系,导致规划智能体生成的子目标可能难以被执行智能体理解或执行,从而影响整体任务完成效果。
核心思路:MOAT的核心思路是通过联合对齐调整,迭代地优化规划智能体和执行智能体,使它们更好地协同工作。具体来说,规划智能体被训练成生成更适合执行智能体执行的子目标,而执行智能体则通过学习更多样化的子目标-动作对来提高其泛化能力。这种迭代式的对齐过程能够逐步缩小智能体之间的能力差距,提升整体系统的性能。
技术框架:MOAT框架包含两个主要阶段:规划智能体对齐和执行智能体改进。在规划智能体对齐阶段,通过优化规划智能体,使其生成的子目标序列能够更好地指导执行智能体。在执行智能体改进阶段,利用执行智能体自身生成的各种子目标-动作对进行微调,从而增强其泛化能力。这两个阶段交替进行,直到系统收敛。
关键创新:MOAT的关键创新在于其联合对齐调整的策略。与传统的独立训练方法不同,MOAT考虑了智能体之间的依赖关系,通过迭代优化,使智能体能够更好地协同工作。此外,MOAT还利用执行智能体自身生成的数据进行微调,从而提高了其泛化能力。
关键设计:MOAT的具体实现细节包括:规划智能体的优化目标是生成能够最大化执行智能体奖励的子目标序列;执行智能体的微调采用了一种基于自生成数据的策略,即利用执行智能体自身生成的子目标-动作对进行训练;框架的收敛性通过理论分析进行了证明,保证了训练过程的稳定性和有效性。
📊 实验亮点
实验结果表明,MOAT在六个基准测试中均优于现有最先进的基线方法。在已见任务上,MOAT平均提高了3.1%的性能,而在更具挑战性的未见任务上,平均提高了4.4%。这些结果验证了MOAT框架的有效性,证明了联合对齐调整策略能够显著提升多智能体系统的协作能力。
🎯 应用场景
MOAT框架可应用于各种需要多智能体协作的复杂任务,例如机器人控制、自动化流程设计、智能客服等。通过提升智能体之间的协作能力,可以显著提高任务完成效率和质量,降低人工干预成本,具有广泛的应用前景和实际价值。
📄 摘要(原文)
The advancement of large language models (LLMs) has enabled the construction of multi-agent systems to solve complex tasks by dividing responsibilities among specialized agents, such as a planning agent for subgoal generation and a grounding agent for executing tool-use actions. Most existing methods typically fine-tune these agents independently, leading to capability gaps among them with poor coordination. To address this, we propose MOAT, a Multi-Agent Joint Alignment Tuning framework that improves agents collaboration through iterative alignment. MOAT alternates between two key stages: (1) Planning Agent Alignment, which optimizes the planning agent to generate subgoal sequences that better guide the grounding agent; and (2) Grounding Agent Improving, which fine-tunes the grounding agent using diverse subgoal-action pairs generated by the agent itself to enhance its generalization capablity. Theoretical analysis proves that MOAT ensures a non-decreasing and progressively convergent training process. Experiments across six benchmarks demonstrate that MOAT outperforms state-of-the-art baselines, achieving average improvements of 3.1% on held-in tasks and 4.4% on held-out tasks.