Bridging the Capability Gap: Joint Alignment Tuning for Harmonizing LLM-based Multi-Agent Systems

作者: Minghang Zhu, Zhengliang Shi, Zhiwei Xu, Shiguang Wu, Lingjie Wang, Pengjie Ren, Zhaochun Ren, Zhumin Chen

分类: cs.CL

发布日期: 2025-09-11

备注: EMNLP 2025 Findings

💡 一句话要点

提出MOAT框架，通过联合对齐调整优化LLM多智能体系统协作能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 大型语言模型 联合对齐 迭代优化 能力差距 工具使用 规划智能体 执行智能体

📋 核心要点

现有方法独立微调LLM多智能体系统中的各个智能体，导致智能体间能力不匹配，协作困难。
MOAT框架通过迭代对齐规划智能体和执行智能体，优化子目标生成和动作执行，提升整体协作能力。
实验结果表明，MOAT在多个基准测试中显著优于现有方法，在已见和未见任务上均有提升。

📝 摘要（中文）

大型语言模型（LLMs）的发展使得构建多智能体系统成为可能，通过将复杂任务分解为专门的智能体来解决，例如规划智能体用于生成子目标，执行智能体用于执行工具使用动作。现有方法通常独立地微调这些智能体，导致智能体之间存在能力差距，协作效果不佳。为了解决这个问题，我们提出了MOAT，一个多智能体联合对齐调整框架，通过迭代对齐来提高智能体之间的协作。MOAT在两个关键阶段之间交替进行：（1）规划智能体对齐，优化规划智能体以生成更好地指导执行智能体的子目标序列；（2）执行智能体改进，使用智能体自身生成的各种子目标-动作对来微调执行智能体，以增强其泛化能力。理论分析证明，MOAT确保了一个非递减和逐渐收敛的训练过程。在六个基准测试上的实验表明，MOAT优于最先进的基线，在已见任务上平均提高了3.1%，在未见任务上平均提高了4.4%。

🔬 方法详解

问题定义：现有基于LLM的多智能体系统通常独立训练各个智能体，例如规划智能体和执行智能体。这种独立训练方式导致智能体之间的能力不对齐，规划智能体生成的子目标可能对执行智能体来说难以实现，或者执行智能体无法有效地利用规划智能体提供的子目标，从而降低了整体系统的性能。因此，需要一种方法来协调不同智能体的训练过程，弥合它们之间的能力差距。

核心思路：MOAT的核心思路是通过联合对齐调整来优化多智能体系统的协作能力。具体来说，MOAT迭代地优化规划智能体和执行智能体，使得规划智能体生成的子目标能够更好地指导执行智能体，同时执行智能体能够更好地利用规划智能体提供的子目标。这种迭代优化过程可以逐步弥合智能体之间的能力差距，提高整体系统的性能。

技术框架：MOAT框架包含两个主要阶段：规划智能体对齐和执行智能体改进。在规划智能体对齐阶段，MOAT优化规划智能体，使其生成更适合执行智能体执行的子目标序列。在执行智能体改进阶段，MOAT使用规划智能体生成的子目标-动作对来微调执行智能体，提高其泛化能力。这两个阶段交替进行，直到系统收敛。

关键创新：MOAT的关键创新在于其联合对齐调整策略，通过迭代优化规划智能体和执行智能体，弥合它们之间的能力差距。与现有方法独立训练智能体的方式不同，MOAT考虑了智能体之间的相互依赖关系，从而能够更有效地提高整体系统的性能。此外，MOAT还通过理论分析证明了其训练过程的非递减性和逐渐收敛性。

关键设计：MOAT的具体实现细节包括：(1) 使用特定的损失函数来优化规划智能体，使其生成的子目标更易于执行智能体理解和执行；(2) 使用数据增强技术来生成更多样化的子目标-动作对，以提高执行智能体的泛化能力；(3) 设计合适的迭代停止条件，以确保系统能够收敛到最优解。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MOAT在六个基准测试中均优于最先进的基线方法。具体来说，MOAT在已见任务上平均提高了3.1%，在未见任务上平均提高了4.4%。这些结果表明，MOAT能够有效地提高多智能体系统的协作能力和泛化能力。

🎯 应用场景

MOAT框架可应用于各种需要多智能体协作的复杂任务，例如机器人控制、自动化流程设计、智能客服等。通过优化智能体之间的协作，可以提高任务完成的效率和质量，降低人工干预的需求，具有广泛的应用前景和实际价值。未来，可以将MOAT扩展到更多类型的智能体和更复杂的任务场景。

📄 摘要（原文）

The advancement of large language models (LLMs) has enabled the construction of multi-agent systems to solve complex tasks by dividing responsibilities among specialized agents, such as a planning agent for subgoal generation and a grounding agent for executing tool-use actions. Most existing methods typically fine-tune these agents independently, leading to capability gaps among them with poor coordination. To address this, we propose MOAT, a Multi-Agent Joint Alignment Tuning framework that improves agents collaboration through iterative alignment. MOAT alternates between two key stages: (1) Planning Agent Alignment, which optimizes the planning agent to generate subgoal sequences that better guide the grounding agent; and (2) Grounding Agent Improving, which fine-tunes the grounding agent using diverse subgoal-action pairs generated by the agent itself to enhance its generalization capablity. Theoretical analysis proves that MOAT ensures a non-decreasing and progressively convergent training process. Experiments across six benchmarks demonstrate that MOAT outperforms state-of-the-art baselines, achieving average improvements of 3.1% on held-in tasks and 4.4% on held-out tasks.

Bridging the Capability Gap: Joint Alignment Tuning for Harmonizing LLM-based Multi-Agent Systems

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理