Zero-Shot Scalable Resilience in UAV Swarms: A Decentralized Imitation Learning Framework with Physics-Informed Graph Interactions

📄 arXiv: 2604.15762v1 📥 PDF

作者: Huan Lin, Lianghui Ding

分类: cs.LG

发布日期: 2026-04-17


💡 一句话要点

提出基于物理信息的图对抗模仿学习算法,实现无人机集群的零样本可扩展弹性恢复。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 无人机集群 去中心化控制 模仿学习 图神经网络 物理信息 零样本学习 可扩展性

📋 核心要点

  1. 现有无人机集群恢复方法在面对大规模故障导致的网络分割时,存在通信负担重或泛化能力差的问题。
  2. PhyGAIL通过构建基于物理信息的局部交互图,并利用图神经网络进行消息传递,实现规模不变的去中心化策略。
  3. 实验表明,PhyGAIL训练的策略能够零样本迁移到更大规模的无人机集群,并在多个指标上优于现有方法。

📝 摘要(中文)

大规模无人机(UAV)故障可能将无人机集群网络分割成断开的子网络,使得去中心化恢复变得既紧急又困难。中心化恢复方法依赖于全局拓扑信息,在严重碎片化后通信负担沉重。去中心化启发式方法和多智能体强化学习方法更易于部署,但它们的性能通常在集群规模和损坏严重程度变化时会下降。我们提出了一种基于物理信息的图对抗模仿学习算法(PhyGAIL),该算法采用集中式训练和去中心化执行。PhyGAIL从异构观测构建有界局部交互图,并使用基于物理信息的图神经网络将定向局部交互编码为具有显式吸引和排斥的门控消息传递。这赋予策略一个物理基础的协调偏差,同时保持局部观测的尺度不变性。它还使用场景自适应模仿学习来改善在碎片化拓扑和可变长度恢复episode下的训练。我们的分析建立了有界局部图放大、有界交互动力学和终端成功信号的受控方差。一个在20架无人机集群上训练的策略可以直接迁移到多达500架无人机的集群,无需微调,并且在重连可靠性、恢复速度、运动安全和运行时效率方面比代表性基线表现更好。

🔬 方法详解

问题定义:论文旨在解决大规模无人机集群在发生故障后,如何快速、可靠地进行去中心化恢复的问题。现有方法,如中心化方法依赖全局信息,通信开销大;去中心化方法在集群规模和故障程度变化时,性能下降,泛化能力不足。

核心思路:论文的核心思路是利用模仿学习,学习专家策略,同时引入物理信息来指导智能体的行为,使其具有更好的泛化能力和可扩展性。通过构建局部交互图,智能体仅需关注邻近智能体的信息,降低通信复杂度。

技术框架:PhyGAIL采用集中式训练、去中心化执行的框架。训练阶段,利用专家数据进行模仿学习,学习无人机集群的恢复策略。执行阶段,每个无人机根据局部观测,独立决策。整体流程包括:1) 构建局部交互图;2) 利用物理信息图神经网络进行消息传递;3) 使用场景自适应模仿学习进行策略训练。

关键创新:论文的关键创新在于:1) 提出了基于物理信息的图神经网络,显式地建模了智能体之间的吸引和排斥力,赋予策略物理基础的协调偏差;2) 提出了场景自适应模仿学习,提高了策略在不同故障场景下的鲁棒性;3) 实现了策略的零样本可扩展性,即在小规模集群上训练的策略可以直接应用于大规模集群。

关键设计:局部交互图的构建基于无人机之间的距离,只考虑一定范围内的邻居节点。物理信息图神经网络采用门控消息传递机制,利用吸引力和排斥力作为门控信号,控制信息的传递。损失函数包括模仿学习损失和正则化项,用于约束策略的行为。场景自适应模仿学习通过调整训练数据的分布,提高策略在不同场景下的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PhyGAIL训练的策略能够零样本迁移到高达500架无人机的集群,无需进行任何微调。在重连可靠性、恢复速度、运动安全和运行时效率方面,PhyGAIL均优于现有的基线方法。例如,在重连可靠性方面,PhyGAIL相比于其他方法提升了显著的百分比。

🎯 应用场景

该研究成果可应用于大规模无人机集群的自主导航、搜索救援、环境监测等领域。尤其是在灾难救援等场景下,无人机集群能够快速恢复通信网络,提供关键信息支持。该方法具有良好的可扩展性和鲁棒性,为无人机集群的实际应用提供了重要技术支撑。

📄 摘要(原文)

Large-scale Unmanned Aerial Vehicle (UAV) failures can split an unmanned aerial vehicle swarm network into disconnected sub-networks, making decentralized recovery both urgent and difficult. Centralized recovery methods depend on global topology information and become communication-heavy after severe fragmentation. Decentralized heuristics and multi-agent reinforcement learning methods are easier to deploy, but their performance often degrades when the swarm scale and damage severity vary. We present Physics-informed Graph Adversarial Imitation Learning algorithm (PhyGAIL) that adopts centralized training with decentralized execution. PhyGAIL builds bounded local interaction graphs from heterogeneous observations, and uses physics-informed graph neural network to encode directional local interactions as gated message passing with explicit attraction and repulsion. This gives the policy a physically grounded coordination bias while keeping local observations scale-invariant. It also uses scenario-adaptive imitation learning to improve training under fragmented topologies and variable-length recovery episodes. Our analysis establishes bounded local graph amplification, bounded interaction dynamics, and controlled variance of the terminal success signal. A policy trained on 20-UAV swarms transfers directly to swarms of up to 500 UAVs without fine-tuning, and achieves better performance across reconnection reliability, recovery speed, motion safety, and runtime efficiency than representative baselines.