Spatio-Temporal Attention Enhanced Multi-Agent DRL for UAV-Assisted Wireless Networks with Limited Communications

📄 arXiv: 2603.21594v1 📥 PDF

作者: Che Chen, Lanhua Li, Shimin Gong, Yu Zhao, Yuming Fang, Dusit Niyato

分类: cs.IT, cs.AI, eess.SY

发布日期: 2026-03-23


💡 一句话要点

针对通信受限的无人机网络,提出时空注意力增强的多智能体DRL算法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 无人机网络 多智能体DRL 时空注意力 无线通信 延迟容忍 轨迹规划 网络形成

📋 核心要点

  1. 现有无人机辅助无线网络中,无人机间通信受限导致信息延迟,影响协作效率和网络吞吐量。
  2. 提出一种延迟容忍的MADRL算法,结合延迟惩罚奖励鼓励信息共享,并利用时空注意力机制恢复丢失信息。
  3. 实验结果表明,该方法在信息延迟方面降低了50%以上,吞吐量增益提高了75%,提升了学习性能。

📝 摘要(中文)

本文利用多个无人机(UAV)通过中继通信加速地面用户(GU)到远程基站(BS)的数据传输。无人机间歇性的信息交换通常会导致获取完整系统状态的延迟,并阻碍其有效协作。为了最大化整体吞吐量,我们首先提出了一种容忍延迟的多智能体深度强化学习(MADRL)算法,该算法集成了延迟惩罚奖励,以鼓励无人机之间的信息共享,同时联合优化无人机的轨迹规划、网络形成和传输控制策略。此外,考虑到不可靠的信道条件导致的信息丢失,我们进一步提出了一种基于时空注意力的预测方法来恢复丢失的信息并增强每个无人机对网络状态的感知。这两个设计旨在提高通信受限的无人机辅助无线网络中的网络容量。仿真结果表明,与传统的MADRL相比,我们的新方法在信息延迟方面降低了50%以上,吞吐量增益提高了75%。有趣的是,改善无人机的信息共享不会牺牲网络容量,反而会显着提高学习性能和吞吐量。它还可以有效地减少无人机信息交换的需求,从而促进MADRL在无人机辅助无线网络中的实际部署。

🔬 方法详解

问题定义:论文旨在解决无人机辅助无线网络中,由于无人机之间通信受限导致的信息延迟问题,进而影响网络吞吐量。现有方法难以有效处理信息延迟和信息丢失,导致无人机无法获得完整的系统状态,阻碍了有效的协作。

核心思路:论文的核心思路是通过设计一种延迟容忍的MADRL算法,鼓励无人机之间的信息共享,并利用时空注意力机制来预测和恢复丢失的信息,从而增强无人机对网络状态的感知。这种设计旨在提高网络容量,同时减少对无人机信息交换的需求。

技术框架:整体框架包含以下几个主要模块:1) 基于MADRL的决策模块,用于联合优化无人机的轨迹规划、网络形成和传输控制策略。2) 延迟惩罚奖励机制,用于鼓励无人机之间的信息共享。3) 基于时空注意力的预测模块,用于恢复丢失的信息并增强无人机对网络状态的感知。无人机通过与环境交互,获取状态信息,并根据MADRL算法做出动作,环境根据动作给出奖励,并更新状态。

关键创新:论文的关键创新在于:1) 提出了延迟惩罚奖励机制,有效解决了信息延迟问题,鼓励了无人机之间的信息共享。2) 引入了时空注意力机制,用于预测和恢复丢失的信息,增强了无人机对网络状态的感知。这两种机制的结合,显著提高了网络容量和学习性能。

关键设计:延迟惩罚奖励的设计需要仔细权衡延迟带来的负面影响和信息共享带来的正面影响。时空注意力机制的网络结构需要根据具体的应用场景进行调整,例如,可以采用Transformer结构或LSTM结构。损失函数的设计需要考虑预测精度和鲁棒性。MADRL算法的具体实现可以采用Actor-Critic方法,例如DDPG或TD3。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的方法与传统的MADRL相比,在信息延迟方面降低了50%以上,吞吐量增益提高了75%。此外,实验还证明,改善无人机的信息共享不会牺牲网络容量,反而会显著提高学习性能和吞吐量。这些结果验证了所提出方法的有效性和优越性。

🎯 应用场景

该研究成果可应用于各种需要无人机辅助无线通信的场景,例如灾后应急通信、偏远地区网络覆盖、大型活动现场的网络保障等。通过提高无人机网络的容量和效率,可以为用户提供更可靠、更快速的无线通信服务,具有重要的实际应用价值和广阔的市场前景。

📄 摘要(原文)

In this paper, we employ multiple UAVs to accelerate data transmissions from ground users (GUs) to a remote base station (BS) via the UAVs' relay communications. The UAVs' intermittent information exchanges typically result in delays in acquiring the complete system state and hinder their effective collaboration. To maximize the overall throughput, we first propose a delay-tolerant multi-agent deep reinforcement learning (MADRL) algorithm that integrates a delay-penalized reward to encourage information sharing among UAVs, while jointly optimizing the UAVs' trajectory planning, network formation, and transmission control strategies. Additionally, considering information loss due to unreliable channel conditions, we further propose a spatio-temporal attention based prediction approach to recover the lost information and enhance each UAV's awareness of the network state. These two designs are envisioned to enhance the network capacity in UAV-assisted wireless networks with limited communications. The simulation results reveal that our new approach achieves over 50\% reduction in information delay and 75% throughput gain compared to the conventional MADRL. Interestingly, it is shown that improving the UAVs' information sharing will not sacrifice the network capacity. Instead, it significantly improves the learning performance and throughput simultaneously. It is also effective in reducing the need for UAVs' information exchange and thus fostering practical deployment of MADRL in UAV-assisted wireless networks.