Cooperative Multi-Agent Planning with Adaptive Skill Synthesis

作者: Zhiyuan Li, Wenshuai Zhao, Joni Pajarinen

分类: cs.AI, cs.MA

发布日期: 2025-02-14 (更新: 2025-05-06)

💡 一句话要点

COMPASS：基于自适应技能合成的合作式多智能体规划框架

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体强化学习 视觉语言模型 技能合成 合作式规划 结构化通信

📋 核心要点

传统MARL方法样本效率低、可解释性差，且难以迁移，而LLM虽有潜力，但难以处理部分可观测下的多智能体交互。
COMPASS通过集成VLM、动态技能库和结构化通信，实现了分散式闭环决策，提升了多智能体协作能力。
在SMACv2上的实验表明，COMPASS在对称和非对称场景中均优于现有MARL方法，胜率显著提升。

📝 摘要（中文）

尽管分布式人工智能（AI）训练取得了很大进展，但使用多智能体强化学习（MARL）构建合作式多智能体系统在样本效率、可解释性和可迁移性方面面临挑战。与需要与环境进行大量交互的传统学习方法不同，大型语言模型（LLM）在零样本规划和复杂推理方面表现出卓越的能力。然而，现有的基于LLM的方法严重依赖于基于文本的观察，并且难以应对部分可观察性下多智能体交互的非马尔可夫性质。我们提出COMPASS，一种新颖的多智能体架构，它集成了视觉-语言模型（VLM）与动态技能库和结构化通信，用于分散式闭环决策。技能库从演示中引导，并通过规划器引导的任务进行演变，以实现自适应策略。COMPASS在部分可观察性下通过多跳通信传播实体信息。在改进的星际争霸多智能体挑战（SMACv2）上的评估表明，COMPASS在对称和非对称场景中都表现出优于最先进的MARL基线的强大性能。值得注意的是，在对称的Protoss 5v5任务中，COMPASS实现了57%的胜率，比QMIX（27%）高出30个百分点。

🔬 方法详解

问题定义：论文旨在解决多智能体强化学习中样本效率低、可解释性差、迁移性弱的问题，尤其是在部分可观测环境下，传统方法难以有效利用信息进行协作规划。现有方法要么需要大量环境交互，要么难以处理非马尔可夫性质的多智能体交互。

核心思路：论文的核心思路是结合视觉-语言模型（VLM）的强大推理能力和动态技能库的灵活性，通过结构化通信在智能体之间传递信息，从而实现高效、可解释、可迁移的多智能体协作。这种方法旨在弥合LLM在复杂推理方面的优势与MARL在环境交互方面的优势。

技术框架：COMPASS的整体架构包含以下几个主要模块：1) 视觉-语言模型（VLM）：用于处理视觉输入并提取语义信息。2) 动态技能库：存储预定义的技能，并根据任务需求进行自适应选择和组合。3) 规划器：根据VLM的输出和技能库中的技能，生成任务执行计划。4) 结构化通信模块：用于在智能体之间传递信息，解决部分可观测性问题。整个流程是分散式的，每个智能体独立进行决策，并通过通信进行协调。

关键创新：COMPASS的关键创新在于将VLM与动态技能库相结合，并引入结构化通信机制。与传统的端到端MARL方法不同，COMPASS利用VLM的先验知识进行规划，并通过技能库实现策略的自适应调整。结构化通信则解决了部分可观测性下的信息传递问题，使得智能体能够更好地理解全局状态。

关键设计：技能库的初始化通过演示学习完成，并通过规划器引导的任务进行迭代更新。结构化通信采用多跳消息传递机制，允许智能体之间传递多轮信息。损失函数的设计旨在鼓励智能体选择合适的技能并进行有效的通信。具体的网络结构和参数设置在论文中进行了详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

COMPASS在SMACv2上取得了显著的性能提升。在对称的Protoss 5v5任务中，COMPASS的胜率达到了57%，比QMIX（27%）高出30个百分点。实验结果表明，COMPASS在对称和非对称场景中均优于现有的MARL基线，验证了其有效性和泛化能力。这些结果表明，COMPASS能够有效地利用VLM和动态技能库进行多智能体协作。

🎯 应用场景

COMPASS具有广泛的应用前景，例如在机器人协同操作、自动驾驶车队管理、智能交通调度、以及资源分配等领域。该研究的实际价值在于提升多智能体系统的协作效率和鲁棒性，使其能够在复杂和不确定的环境中更好地完成任务。未来，COMPASS有望推动多智能体技术在更多实际场景中的应用。

📄 摘要（原文）

Despite much progress in training distributed artificial intelligence (AI), building cooperative multi-agent systems with multi-agent reinforcement learning (MARL) faces challenges in sample efficiency, interpretability, and transferability. Unlike traditional learning-based methods that require extensive interaction with the environment, large language models (LLMs) demonstrate remarkable capabilities in zero-shot planning and complex reasoning. However, existing LLM-based approaches heavily rely on text-based observations and struggle with the non-Markovian nature of multi-agent interactions under partial observability. We present COMPASS, a novel multi-agent architecture that integrates vision-language models (VLMs) with a dynamic skill library and structured communication for decentralized closed-loop decision-making. The skill library, bootstrapped from demonstrations, evolves via planner-guided tasks to enable adaptive strategies. COMPASS propagates entity information through multi-hop communication under partial observability. Evaluations on the improved StarCraft Multi-Agent Challenge (SMACv2) demonstrate COMPASS's strong performance against state-of-the-art MARL baselines across both symmetric and asymmetric scenarios. Notably, in the symmetric Protoss 5v5 task, COMPASS achieved a 57\% win rate, representing a 30 percentage point advantage over QMIX (27\%). Project page can be found at https://stellar-entremet-1720bb.netlify.app/.

Cooperative Multi-Agent Planning with Adaptive Skill Synthesis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理