Network Distributed Multi-Agent Reinforcement Learning for Consensus Control of Quadcopters
作者: Youssef Mahran, Zeyad Gamal, Aamir Ahmad, Ayman El-Badawy
分类: cs.RO, cs.AI, cs.LG
发布日期: 2026-06-01
备注: This is the Author Accepted Manuscript version of a paper accepted for publication. The final published version is available via IEEE Xplore
期刊: 2026 IEEE 23rd Mediterranean Electrotechnical Conference (MELECON)
DOI: 10.1109/MELECON64486.2026.11418865
💡 一句话要点
提出网络分布式多智能体强化学习框架以解决四旋翼共识控制问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多智能体强化学习 四旋翼控制 分布式控制 共识算法 通信拓扑 MASAC 无人机编队
📋 核心要点
- 现有的多智能体强化学习方法通常依赖集中式规划或完全去中心化执行,导致信息共享和决策效率低下。
- 本文提出的ND-MARL框架通过引入群体通信图,允许智能体在有限的邻居信息下进行分布式决策,从而提高了控制效率。
- 实验结果显示,ND-MARL在多个智能体的共识控制任务中表现优异,尤其在大规模群体中展现出良好的可扩展性和收敛性。
📝 摘要(中文)
本文提出了一种网络分布式多智能体强化学习(ND-MARL)框架,用于四旋翼的共识控制。与依赖集中规划或完全去中心化执行的传统多智能体MARL方法相比,ND-MARL将群体通信图纳入决策过程。在2-邻居通信拓扑下,每个智能体仅观察两个邻居的信息,并通过分布式策略输出动作。高层分布式共识规划器使用多智能体软演员-评论家(MASAC)进行训练,并嵌入分层堆栈中,以生成低层四旋翼控制器跟踪的参考目标位置。结果表明,与集中式MARL控制器相比,ND-MARL实现了平滑的共识轨迹和规划者-跟踪器的集成。值得注意的是,所学习的控制器展现出零-shot可扩展性,训练于三智能体系统的策略可在相同2-邻居通信拓扑下部署到多达250个智能体的群体中,无需重新训练或微调,随着团队规模的增加,稳态扩散一致收敛。这些发现突显了ND-MARL作为一种稳定的分布式、通信感知的四旋翼共识控制框架。
🔬 方法详解
问题定义:本文旨在解决四旋翼群体的共识控制问题,现有方法在信息共享和决策效率方面存在不足,尤其在大规模智能体系统中表现不佳。
核心思路:ND-MARL框架通过引入2-邻居通信拓扑,使每个智能体仅依赖于两个邻居的信息进行决策,从而实现分布式控制。这种设计提高了信息传播的效率和决策的灵活性。
技术框架:ND-MARL的整体架构包括高层分布式共识规划器和低层四旋翼控制器。高层规划器使用多智能体软演员-评论家(MASAC)进行训练,生成参考目标位置,低层控制器负责跟踪这些目标。
关键创新:ND-MARL的主要创新在于将群体通信图纳入决策过程,使得智能体在有限的信息下仍能有效协作。这与传统的集中式或完全去中心化方法形成鲜明对比。
关键设计:在实现中,采用了2-邻居通信拓扑,设计了适应性强的分布式策略,并通过MASAC优化了高层规划器的训练过程,确保了控制器的高效性和稳定性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ND-MARL在三智能体系统上训练的策略能够无缝扩展到多达250个智能体的群体中,且在相同的2-邻居通信拓扑下实现了稳态扩散的一致收敛。与集中式MARL控制器相比,ND-MARL在共识轨迹的平滑性和规划者-跟踪器的集成方面表现出显著优势。
🎯 应用场景
该研究的潜在应用领域包括无人机编队、智能交通系统和多机器人协作等。通过实现高效的共识控制,ND-MARL框架能够在复杂环境中提升多智能体系统的协作能力,具有重要的实际价值和广泛的应用前景。
📄 摘要(原文)
This paper proposes a Network Distributed Multi-Agent Reinforcement Learning (ND-MARL) framework for quadcopter consensus control. Compared to conventional multi-agent MARL formulations that rely on centralized planning or fully decentralized execution, ND-MARL incorporates the swarm communication graph into the decision process. Under a 2-Neighbor communication topology, each agent observes information of only two neighbors and outputs an action through a distributed policy. A high-level distributed consensus planner is trained using Multi-Agent Soft Actor-Critic (MASAC) and embedded in a hierarchical stack to generate reference target positions tracked by a low-level quadcopter controller. Results demonstrate smooth consensus trajectories and planner-tracker integration when compared to a centralized MARL controller. Most notably, the learned controller exhibits zero-shot scalability, as policies trained on a three-agent system are deployed to swarms of up to 250 agents under the same 2-Neighbor communication topology without retraining or fine-tuning, achieving consistent convergence with increasing steady-state spread at large team sizes due to sparse information propagation. These findings highlight ND-MARL as a stable framework for distributed, communication-aware quadcopter consensus control.