Multi-source Plume Tracing via Multi-Agent Reinforcement Learning

📄 arXiv: 2505.08825v1 📥 PDF

作者: Pedro Antonio Alarcon Granadeno, Theodore Chambers, Jane Cleland-Huang

分类: cs.MA, cs.AI

发布日期: 2025-05-12

备注: 13 pages, 7 figures


💡 一句话要点

提出基于多智能体强化学习的烟羽追踪算法,用于快速定位多个污染源。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 烟羽追踪 无人机集群 部分可观测马尔可夫博弈 LSTM网络

📋 核心要点

  1. 传统烟羽追踪方法在湍流等复杂环境下表现不佳,难以快速可靠地定位污染源。
  2. 提出基于MARL的烟羽追踪算法,利用无人机集群协同搜索,并结合LSTM处理部分可观测问题。
  3. 实验表明,该算法在复杂仿真环境中显著优于传统方法,能更高效地定位多个污染源。

📝 摘要(中文)

本文提出了一种基于多智能体强化学习(MARL)的算法,旨在利用小型无人机系统(sUAS)集群定位多个空气污染源。该方法将问题建模为部分可观测马尔可夫博弈(POMG),并采用基于长短期记忆网络(LSTM)的动作特定双重深度循环Q网络(ADDRQN),该网络使用完整的历史动作-观测序列,有效近似潜在状态。与以往工作不同,本文使用基于高斯烟羽模型(GPM)的通用仿真环境,包含三维环境、传感器噪声、多智能体交互和多污染源等真实元素。将动作历史作为输入的一部分,进一步增强了模型在复杂、部分可观测环境中的适应性。大量仿真表明,该算法显著优于传统方法,仅需探索1.29%的环境即可成功定位污染源。

🔬 方法详解

问题定义:论文旨在解决在复杂、湍流环境中,快速、准确地定位多个空气污染源的问题。现有方法,如基于梯度或生物启发的方法,在实际的复杂环境中往往失效,无法满足快速响应的需求。这些方法通常难以处理环境的不确定性和部分可观测性,导致搜索效率低下。

核心思路:论文的核心思路是将烟羽追踪问题建模为一个多智能体强化学习问题,利用多个无人机协同探索环境,并通过强化学习算法学习最优的搜索策略。通过让智能体之间共享信息和协同行动,可以更有效地探索环境,克服单个智能体感知范围有限的问题。

技术框架:整体框架包括以下几个主要部分:1) 基于高斯烟羽模型(GPM)的仿真环境,用于模拟真实的烟羽扩散过程;2) 多智能体系统,由多个无人机组成,每个无人机配备传感器用于感知环境信息;3) 基于LSTM的动作特定双重深度循环Q网络(ADDRQN),用于学习每个智能体的最优策略。智能体通过与环境交互,获取奖励信号,并利用ADDRQN更新策略。

关键创新:论文的关键创新在于将动作历史作为ADDRQN的输入,从而使智能体能够更好地处理部分可观测性问题。传统的强化学习方法通常只考虑当前的状态信息,而忽略了历史信息。通过引入LSTM网络,智能体可以学习到环境的潜在状态,从而做出更明智的决策。此外,使用动作特定的Q值函数,可以更有效地学习不同动作的价值。

关键设计:ADDRQN网络使用LSTM层来处理历史动作-观测序列,输出隐藏状态,然后使用两个独立的Q值估计器(Double DQN)来减少Q值过估计的问题。损失函数采用均方误差(MSE)损失,优化器采用Adam。奖励函数的设计鼓励智能体靠近污染源,并惩罚无效的探索行为。具体参数设置(如LSTM层数、隐藏单元数、学习率等)在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的MARL算法在定位污染源方面显著优于传统方法。具体来说,该算法仅需探索环境的1.29%即可成功定位污染源,这表明该算法具有很高的效率和准确性。此外,实验还验证了将动作历史作为输入能够有效提高算法的性能,尤其是在部分可观测环境中。

🎯 应用场景

该研究成果可应用于多种场景,例如工业事故应急响应、环境监测、泄漏检测等。通过部署无人机集群,可以快速定位有害气体泄漏源,为救援和治理提供决策支持。此外,该技术还可以用于城市空气质量监测,帮助识别污染源头,为环境保护提供数据支撑。未来,该技术有望与物联网、大数据等技术结合,构建智能化的环境监测系统。

📄 摘要(原文)

Industrial catastrophes like the Bhopal disaster (1984) and the Aliso Canyon gas leak (2015) demonstrate the urgent need for rapid and reliable plume tracing algorithms to protect public health and the environment. Traditional methods, such as gradient-based or biologically inspired approaches, often fail in realistic, turbulent conditions. To address these challenges, we present a Multi-Agent Reinforcement Learning (MARL) algorithm designed for localizing multiple airborne pollution sources using a swarm of small uncrewed aerial systems (sUAS). Our method models the problem as a Partially Observable Markov Game (POMG), employing a Long Short-Term Memory (LSTM)-based Action-specific Double Deep Recurrent Q-Network (ADDRQN) that uses full sequences of historical action-observation pairs, effectively approximating latent states. Unlike prior work, we use a general-purpose simulation environment based on the Gaussian Plume Model (GPM), incorporating realistic elements such as a three-dimensional environment, sensor noise, multiple interacting agents, and multiple plume sources. The incorporation of action histories as part of the inputs further enhances the adaptability of our model in complex, partially observable environments. Extensive simulations show that our algorithm significantly outperforms conventional approaches. Specifically, our model allows agents to explore only 1.29\% of the environment to successfully locate pollution sources.