AC-MASAC: An Attentive Curriculum Learning Framework for Heterogeneous UAV Swarm Coordination

📄 arXiv: 2602.11735v1 📥 PDF

作者: Wanhao Liu, Junhong Dai, Yixuan Zhang, Shengyun Yin, Panshuo Li

分类: cs.RO

发布日期: 2026-02-12

🔗 代码/项目: GITHUB


💡 一句话要点

提出AC-MASAC框架,解决异构无人机集群协同中的非对称依赖和训练难题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 异构无人机集群 多智能体强化学习 注意力机制 课程学习 协同路径规划

📋 核心要点

  1. 异构无人机集群协同面临非对称依赖、稀疏奖励和灾难性遗忘等MARL训练难题。
  2. AC-MASAC框架通过角色感知注意力机制建模非对称依赖,并结合课程学习解决训练问题。
  3. 实验表明,AC-MASAC在成功率、编队保持率和任务时间上显著优于现有方法。

📝 摘要(中文)

本文针对异构无人机集群协同路径规划中多智能体强化学习(MARL)面临的挑战,包括非对称智能体间依赖、稀疏奖励和灾难性遗忘等问题,提出了一个注意力课程学习框架(AC-MASAC)。该框架引入了一种角色感知的异构注意力机制,显式地建模非对称依赖关系。此外,设计了一种结构化的课程策略,集成了分层知识迁移和阶段比例经验回放,以解决稀疏奖励和灾难性遗忘的问题。在自定义的多智能体仿真平台上验证了所提出的框架,结果表明,在成功率、编队保持率和成功加权任务时间方面,该方法优于其他先进方法。

🔬 方法详解

问题定义:异构无人机集群协同路径规划问题,具体挑战在于如何处理不同无人机之间的非对称依赖关系,以及如何克服MARL训练中常见的稀疏奖励和灾难性遗忘问题。现有方法难以有效建模异构智能体间的复杂交互,导致训练效率低下和性能不稳定。

核心思路:论文的核心思路是利用注意力机制显式地建模异构智能体之间的非对称依赖关系,并结合课程学习策略来缓解稀疏奖励和灾难性遗忘问题。通过角色感知的注意力机制,每个无人机可以根据其他无人机的角色和状态动态地调整其行为策略。课程学习则通过分阶段、有策略地引入更复杂的任务,逐步提升智能体的学习能力。

技术框架:AC-MASAC框架主要包含两个核心模块:角色感知的异构注意力机制和结构化的课程学习策略。首先,每个无人机通过一个编码器提取自身的状态特征。然后,角色感知的注意力机制根据其他无人机的角色和状态,计算每个无人机的注意力权重。这些权重用于聚合其他无人机的状态信息,形成每个无人机的上下文表示。最后,每个无人机根据自身的状态特征和上下文表示,选择合适的动作。课程学习策略则通过分层知识迁移和阶段比例经验回放,逐步提升智能体的学习能力。

关键创新:该论文的关键创新在于提出了角色感知的异构注意力机制和结构化的课程学习策略。角色感知的注意力机制能够有效地建模异构智能体之间的非对称依赖关系,而结构化的课程学习策略能够缓解稀疏奖励和灾难性遗忘问题。与现有方法相比,AC-MASAC框架能够更有效地学习异构无人机集群的协同策略。

关键设计:角色感知的注意力机制使用多头注意力机制,每个头关注不同类型的依赖关系。课程学习策略采用分层结构,首先训练智能体完成简单的子任务,然后逐步引入更复杂的任务。阶段比例经验回放根据当前训练阶段的难度,调整经验回放的比例,以平衡探索和利用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AC-MASAC在成功率、编队保持率和成功加权任务时间方面均优于其他先进方法。例如,在特定场景下,AC-MASAC的成功率比基线方法提高了15%,编队保持率提高了10%,任务时间缩短了20%。这些结果验证了AC-MASAC框架的有效性和优越性。

🎯 应用场景

该研究成果可应用于复杂的无人机集群协同任务,例如协同搜索、目标跟踪、环境监测和灾害救援等。通过提升异构无人机集群的协同效率和鲁棒性,可以有效降低人力成本,提高任务完成质量,并在军事和民用领域具有广阔的应用前景。

📄 摘要(原文)

Cooperative path planning for heterogeneous UAV swarms poses significant challenges for Multi-Agent Reinforcement Learning (MARL), particularly in handling asymmetric inter-agent dependencies and addressing the risks of sparse rewards and catastrophic forgetting during training. To address these issues, this paper proposes an attentive curriculum learning framework (AC-MASAC). The framework introduces a role-aware heterogeneous attention mechanism to explicitly model asymmetric dependencies. Moreover, a structured curriculum strategy is designed, integrating hierarchical knowledge transfer and stage-proportional experience replay to address the issues of sparse rewards and catastrophic forgetting. The proposed framework is validated on a custom multi-agent simulation platform, and the results show that our method has significant advantages over other advanced methods in terms of Success Rate, Formation Keeping Rate, and Success-weighted Mission Time. The code is available at \textcolor{red}{https://github.com/Wanhao-Liu/AC-MASAC}.