Graph Based Deep Reinforcement Learning Aided by Transformers for Multi-Agent Cooperation

📄 arXiv: 2504.08195v1 📥 PDF

作者: Michael Elrod, Niloufar Mehrabi, Rahul Amin, Manveen Kaur, Long Cheng, Jim Martin, Abolfazl Razi

分类: cs.MA, cs.AI

发布日期: 2025-04-11

备注: 6 pages, 7 figures, Accepted to the 2025 IEEE International Conference on Communications Workshops (ICC Workshops)


💡 一句话要点

提出基于图神经网络、Transformer和深度强化学习的多智能体协同框架,解决复杂环境下的无人机任务规划问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体系统 深度强化学习 图神经网络 Transformer 协同任务规划 无人机群 部分可观测

📋 核心要点

  1. 传统路径规划算法在部分可观测、通信范围有限和不确定环境下表现不佳,尤其是在缺乏先验信息时。
  2. 该论文提出一种结合图神经网络、Transformer和深度强化学习的框架,用于增强多智能体协同和任务执行。
  3. 实验结果表明,该方法在服务提供率和网格覆盖率方面优于基准方法,并显著减少了每个episode的平均步数。

📝 摘要(中文)

本文提出了一种新颖的框架,该框架集成了图神经网络(GNN)、深度强化学习(DRL)和基于Transformer的机制,以增强多智能体协调和集体任务执行能力,从而解决在灾难响应、环境监测和监视等涉及服务分布式目标点的应用中,协同自主无人机群的任务规划难题。该方法利用GNN通过自适应图构建来建模智能体-智能体和智能体-目标交互,从而在受限通信下实现高效的信息聚合和决策。一种基于Transformer的消息传递机制,通过边缘特征增强的注意力机制,捕获复杂的交互模式,而具有优先经验回放的双重深度Q网络(Double DQN)优化了部分可观察环境中的智能体策略。实验结果表明,与粒子群优化(PSO)、贪婪算法和DQN等基准方法相比,该方法表现出卓越的性能,服务提供率达到90%,网格覆盖率(节点发现)达到100%,同时每个episode的平均步数减少到200步(基准方法为600步)。

🔬 方法详解

问题定义:论文旨在解决多智能体在部分可观测、通信受限和环境不确定情况下的协同任务规划问题,例如无人机群在灾难响应中的目标服务。现有方法,如传统路径规划算法、粒子群优化等,难以适应这些复杂场景,尤其是在缺乏先验知识的情况下,导致效率低下或任务失败。

核心思路:论文的核心思路是将多智能体系统建模为图结构,利用图神经网络(GNN)学习智能体之间的交互关系和环境信息,并通过Transformer机制增强消息传递过程,从而实现更有效的信息聚合和决策。同时,采用深度强化学习(DRL)训练智能体的策略,使其能够在不确定环境中自主学习和优化行为。

技术框架:整体框架包含以下几个主要模块:1) 图构建模块:根据智能体和目标的位置关系,动态构建图结构,节点表示智能体和目标,边表示它们之间的连接关系。2) GNN消息传递模块:利用GNN在图上进行消息传递,聚合邻居节点的信息,更新节点表示。3) Transformer增强模块:使用Transformer的注意力机制,增强消息传递过程,捕捉更复杂的交互模式。4) DRL决策模块:使用Double DQN算法,根据当前状态(节点表示)选择动作,并根据环境反馈更新策略。

关键创新:该论文的关键创新在于将GNN、Transformer和DRL有效结合,用于解决多智能体协同任务规划问题。具体来说,利用GNN建模智能体之间的关系,利用Transformer增强消息传递,利用DRL学习最优策略,从而克服了传统方法在复杂环境下的局限性。边缘特征增强的注意力机制也是一个创新点,它允许Transformer关注不同类型边(例如,智能体-智能体,智能体-目标)的重要性。

关键设计:在图构建模块中,边的权重可以根据智能体之间的距离或通信范围进行调整。在Transformer模块中,可以使用多头注意力机制来捕捉不同方面的交互信息。在DRL模块中,使用优先经验回放来提高学习效率,并使用Double DQN来缓解Q值高估问题。损失函数通常包括DRL的Q值损失和一些辅助损失,例如鼓励智能体探索未知区域的探索奖励。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多智能体协同任务规划中表现出优越的性能。与粒子群优化(PSO)、贪婪算法和DQN等基准方法相比,该方法能够实现90%的服务提供率和100%的网格覆盖率(节点发现),同时将每个episode的平均步数从600步减少到200步,显著提高了任务完成效率。

🎯 应用场景

该研究成果可应用于多种多智能体协同任务场景,例如:灾难响应(无人机群搜索幸存者)、环境监测(无人机群收集环境数据)、智能交通(自动驾驶车辆协同行驶)、以及军事侦察等。通过提高多智能体系统的协同效率和鲁棒性,可以显著提升这些应用领域的任务完成质量和效率,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

Mission planning for a fleet of cooperative autonomous drones in applications that involve serving distributed target points, such as disaster response, environmental monitoring, and surveillance, is challenging, especially under partial observability, limited communication range, and uncertain environments. Traditional path-planning algorithms struggle in these scenarios, particularly when prior information is not available. To address these challenges, we propose a novel framework that integrates Graph Neural Networks (GNNs), Deep Reinforcement Learning (DRL), and transformer-based mechanisms for enhanced multi-agent coordination and collective task execution. Our approach leverages GNNs to model agent-agent and agent-goal interactions through adaptive graph construction, enabling efficient information aggregation and decision-making under constrained communication. A transformer-based message-passing mechanism, augmented with edge-feature-enhanced attention, captures complex interaction patterns, while a Double Deep Q-Network (Double DQN) with prioritized experience replay optimizes agent policies in partially observable environments. This integration is carefully designed to address specific requirements of multi-agent navigation, such as scalability, adaptability, and efficient task execution. Experimental results demonstrate superior performance, with 90% service provisioning and 100% grid coverage (node discovery), while reducing the average steps per episode to 200, compared to 600 for benchmark methods such as particle swarm optimization (PSO), greedy algorithms and DQN.