MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems
作者: Zhexuan Wang, Xuebo Liu, Li Wang, Zifei Shan, Yutong Wang, Zhenxi Song, Min Zhang
分类: cs.AI, cs.CL
发布日期: 2026-05-07
备注: Accepted at ICML 2026
🔗 代码/项目: GITHUB
💡 一句话要点
MASPO:面向LLM多智能体系统的联合提示优化框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 大型语言模型 提示优化 联合评估 进化束搜索
📋 核心要点
- 现有方法难以在多智能体系统中联合优化提示,因为局部智能体目标与全局系统目标存在不一致。
- MASPO通过联合评估机制,评估提示对后续智能体成功的影响,从而弥合局部交互和全局结果之间的差距。
- 实验结果表明,MASPO在多个任务上优于现有提示优化方法,平均准确率提升了2.9%。
📝 摘要(中文)
基于大型语言模型(LLM)的多智能体系统(MAS)在解决复杂协作任务方面展现出潜力,其中智能体通常通过角色特定的提示进行协调。然而,联合优化这些交互智能体之间的提示仍然是一个具有挑战性的问题,主要是由于局部智能体目标与整体系统目标之间的不一致。为了解决这个问题,我们提出了MASPO,这是一个旨在自动且迭代地优化整个系统提示的框架。MASPO的核心创新是其联合评估机制,该机制不仅评估提示的局部有效性,还评估其促进后续智能体成功的能力。这有效地弥合了局部交互和全局结果之间的差距,而无需依赖真实标签。此外,MASPO采用数据驱动的进化束搜索来有效地导航高维提示空间。在6个不同任务上的大量实证评估表明,MASPO始终优于最先进的提示优化方法,平均准确率提高了2.9%。我们在https://github.com/wangzx1219/MASPO 上发布了我们的代码。
🔬 方法详解
问题定义:论文旨在解决基于LLM的多智能体系统中,如何有效地联合优化各个智能体的提示,以提升整体系统性能的问题。现有方法通常独立优化每个智能体的提示,忽略了智能体之间的依赖关系,导致局部最优解无法保证全局最优。此外,缺乏全局监督信号使得优化过程更加困难。
核心思路:MASPO的核心思路是通过联合评估机制来评估提示的优劣。该机制不仅考虑提示对当前智能体的局部影响,更重要的是评估其对后续智能体的影响。通过这种方式,MASPO能够将局部智能体目标与全局系统目标对齐,从而实现更有效的联合优化。
技术框架:MASPO的整体框架包含以下几个主要模块:1) 提示生成模块:使用进化束搜索算法生成候选提示。2) 联合评估模块:评估候选提示对整个系统的影响,考虑后续智能体的表现。3) 提示选择模块:根据联合评估结果选择最优提示,并迭代优化。该框架采用数据驱动的方式,无需人工标注数据。
关键创新:MASPO的关键创新在于其联合评估机制。与传统的局部评估方法不同,MASPO通过评估提示对后续智能体的影响,将局部智能体目标与全局系统目标对齐。这种联合评估机制能够更准确地反映提示的真实价值,从而实现更有效的联合优化。此外,采用数据驱动的进化束搜索算法,能够高效地搜索高维提示空间。
关键设计:MASPO的关键设计包括:1) 联合评估函数:该函数用于评估提示对整个系统的影响,可以根据具体任务进行定制。2) 进化束搜索算法:该算法用于生成候选提示,通过交叉、变异等操作不断优化提示。3) 奖励函数:用于指导进化束搜索算法,奖励能够提升系统性能的提示。
🖼️ 关键图片
📊 实验亮点
MASPO在6个不同的任务上进行了广泛的实验评估,结果表明MASPO始终优于最先进的提示优化方法,平均准确率提高了2.9%。这证明了MASPO在联合优化多智能体系统提示方面的有效性。代码已开源,方便研究人员复现和进一步研究。
🎯 应用场景
MASPO可应用于各种需要多智能体协作的场景,例如:自动驾驶、智能客服、供应链管理等。通过优化智能体之间的沟通和协作,MASPO能够提升系统的整体效率和性能,降低人工干预成本,并有望推动多智能体系统在实际应用中的普及。
📄 摘要(原文)
Large language model (LLM)-based Multi-agent systems (MAS) have shown promise in tackling complex collaborative tasks, where agents are typically orchestrated via role-specific prompts. While the quality of these prompts is pivotal, jointly optimizing them across interacting agents remains a non-trivial challenge, primarily due to the misalignment between local agent objectives and holistic system goals. To address this, we introduce MASPO, a novel framework designed to automatically and iteratively refine prompts across the entire system. A core innovation of MASPO is its joint evaluation mechanism, which assesses prompts not merely by their local validity, but by their capacity to facilitate downstream success for successor agents. This effectively bridges the gap between local interactions and global outcomes without relying on ground-truth labels. Furthermore, MASPO employs a data-driven evolutionary beam search to efficiently navigate the high-dimensional prompt space. Extensive empirical evaluations across 6 diverse tasks demonstrate that MASPO consistently outperforms state-of-the-art prompt optimization methods, achieving an average accuracy improvement of 2.9. We release our code at https://github.com/wangzx1219/MASPO.