Coordinated Diffusion: Generating Multi-Agent Behavior Without Multi-Agent Demonstrations

作者: Lasse Peters, Laura Ferranti, Javier Alonso-Mora, Andrea Bajcsy

分类: cs.RO

发布日期: 2026-05-12

💡 一句话要点

CoDi：利用单智能体数据生成多智能体协调行为，无需多智能体演示

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多智能体系统 模仿学习 扩散模型 协调控制 单智能体数据

📋 核心要点

多智能体模仿学习面临数据瓶颈，联合状态-动作空间随智能体数量指数增长，收集协调演示成本高昂。
CoDi框架通过代价函数耦合独立训练的单智能体扩散策略，无需多智能体演示即可实现协调行为。
实验表明，CoDi从单智能体数据中学习到鲁棒的协调行为，且比多智能体基线更具数据效率。

📝 摘要（中文）

模仿学习在生成模型支持下，已被证明对建模复杂的单智能体行为有效。然而，训练多智能体系统（如多臂或车辆）通过模仿学习进行协调受到根本的数据瓶颈的阻碍：由于联合状态-动作空间随着智能体数量呈指数增长，收集足够数量的协调多智能体演示变得非常昂贵。本文探讨了如何利用单智能体演示数据来学习多智能体策略。我们提出了Coordinated Diffusion (CoDi)，一个通过用户定义的多智能体代价函数耦合独立训练的单智能体扩散策略的框架，无需任何协调演示。我们推导出一种新的基于扩散的采样方案，其中扩散得分函数分解为独立的、单智能体预训练的基础策略加上一个代价驱动的引导项，该引导项将这些基础策略协调成有凝聚力的多智能体行为。我们表明，这种引导项可以用无梯度的方式估计，使CoDi适用于黑盒、不可微的代价函数，而无需额外的训练。从理论上和经验上，我们分析了这种组合能够忠实地近似目标多智能体行为的条件。我们发现演示数据与代价函数之间存在互补作用：单智能体演示必须覆盖所需多智能体行为的支持，而代价函数必须从单智能体策略的乘积中促进所需的行为。我们在双臂操作任务的模拟和硬件实验中的结果表明，CoDi从单智能体数据中发现了鲁棒的协调行为，比多智能体基线更具数据效率，并突出了联合引导、基础策略支持和代价设计的重要性。

🔬 方法详解

问题定义：多智能体模仿学习中，获取足够数量的协调演示数据非常困难，因为联合状态-动作空间随着智能体数量呈指数增长。现有方法通常需要大量多智能体演示数据，成本高昂，限制了其在复杂多智能体系统中的应用。

核心思路：CoDi的核心思路是利用已有的单智能体演示数据，通过一个用户定义的多智能体代价函数来引导多个独立训练的单智能体扩散策略，使它们能够协调行动，从而生成多智能体协调行为。这种方法避免了直接学习多智能体策略，降低了数据需求。

技术框架：CoDi框架包含以下主要模块：1) 独立训练的单智能体扩散策略：每个智能体都使用单智能体演示数据训练一个独立的扩散模型，作为基础策略。2) 多智能体代价函数：用户定义一个代价函数，用于评估多智能体行为的协调程度。3) 基于扩散的采样方案：在采样过程中，扩散模型的得分函数被分解为单智能体基础策略和一个代价驱动的引导项。引导项通过优化代价函数来协调各个智能体的行为。

关键创新：CoDi的关键创新在于：1) 提出了一种新的扩散采样方案，将多智能体策略分解为独立的单智能体策略和一个代价驱动的引导项，从而避免了直接学习复杂的多智能体策略。2) 提出了一种无梯度估计引导项的方法，使得CoDi可以应用于黑盒、不可微的代价函数，无需额外的训练。

关键设计：CoDi的关键设计包括：1) 单智能体扩散模型的选择：可以使用各种扩散模型，如DDPM、DDIM等。2) 多智能体代价函数的设计：代价函数需要能够有效地评估多智能体行为的协调程度，例如，可以设计为衡量智能体之间的距离、速度差异等。3) 引导项的估计方法：可以使用各种优化算法，如梯度下降、进化算法等，来优化代价函数，从而估计引导项。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CoDi在双臂操作任务中能够从单智能体数据中学习到鲁棒的协调行为，并且比多智能体基线方法更具数据效率。具体来说，CoDi在完成特定任务时，所需的多智能体数据量显著低于传统的多智能体模仿学习方法，同时能够达到甚至超过后者的性能水平。此外，实验还验证了联合引导、基础策略支持和代价函数设计对CoDi性能的重要性。

🎯 应用场景

CoDi可应用于各种多智能体协调控制任务，例如多臂机器人协同操作、自动驾驶车辆编队行驶、无人机集群控制等。该方法降低了多智能体系统训练的数据需求，使得在数据收集困难或成本高昂的场景下，也能实现高效的多智能体协调控制。未来，CoDi有望推动多智能体系统在工业自动化、智能交通、物流等领域的广泛应用。

📄 摘要（原文）

Imitation learning powered by generative models has proven effective for modeling complex single-agent behaviors. However, teaching multi-agent systems, like multiple arms or vehicles, to coordinate through imitation learning is hindered by a fundamental data bottleneck: as the joint state-action space grows exponentially with the number of agents, collecting a sufficient amount of coordinated multi-agent demonstrations becomes extremely costly. In this work, we ask: how can we leverage single-agent demonstration data to learn multi-agent policies? We present Coordinated Diffusion (CoDi), a framework that couples independently trained single-agent diffusion policies through a user-defined multi-agent cost function, without requiring any coordinated demonstrations. We derive a new diffusion-based sampling scheme wherein the diffusion score function decomposes into independent, single-agent pre-trained base policies plus a cost-driven guidance term that coordinates these base policies into cohesive multi-agent behavior. We show that this guidance term can be estimated in a gradient-free manner, making CoDi applicable to black-box, non-differentiable cost functions without additional training. Theoretically and empirically, we analyze the conditions under which this composition can faithfully approximate a target multi-agent behavior. We find a complementary role for demonstration data versus the cost function: single-agent demonstrations must cover the support of the desired multi-agent behavior, while the cost function must promote desired behavior from this product of single-agent policies. Our results in simulation and hardware experiments of a two-arm manipulation task show that CoDi discovers robust coordinated behavior from single-agent data, is more data-efficient than multi-agent baselines, and highlights the importance of joint guidance, base policy support, and cost design.

Coordinated Diffusion: Generating Multi-Agent Behavior Without Multi-Agent Demonstrations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理