Alleviating Community Fear in Disasters via Multi-Agent Actor-Critic Reinforcement Learning

📄 arXiv: 2604.08802v1 📥 PDF

作者: Yashodhan D. Hakke, Almuatazbellah M. Boker, Lamine Mili, Michael von Spakovsky, Hoda Eldardiry

分类: cs.LG, eess.SY

发布日期: 2026-04-09

备注: 10 pages, 6 figures


💡 一句话要点

提出基于多智能体Actor-Critic强化学习的灾害社区恐慌缓解方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 灾害管理 社区韧性 Actor-Critic 信息物理社会系统

📋 核心要点

  1. 灾害中,电力、通信和社会行为的级联故障会加剧社区恐慌,现有CPS模型缺乏有效干预机制。
  2. 论文扩展了CPS韧性模型,引入通信、电力和应急管理三个机构的控制通道,构建非零和微分博弈。
  3. 实验表明,该方法在飓风哈维和艾尔玛数据上均能有效降低社区恐慌,并提升基础设施恢复。

📝 摘要(中文)

本文研究了灾害期间电力网络、通信网络和社会行为的级联故障如何加剧社区恐慌并削弱合作。现有信息物理社会系统(CPS)模型模拟了这些耦合动态,但缺乏主动干预机制。本文扩展了Valinejad和Mili (2023)的CPS韧性模型,增加了通信、电力和应急管理三个机构的控制通道,并将由此产生的系统构建为一个三方非零和微分博弈,通过在线Actor-Critic强化学习求解。基于飓风哈维数据的模拟显示,平均恐慌减少了70%,基础设施恢复得到改善;在飓风艾尔玛案例中进行交叉验证(未重新拟合)实现了50%的恐慌减少,证实了泛化能力。

🔬 方法详解

问题定义:论文旨在解决灾害事件中,由于电力、通信等基础设施失效以及社会恐慌情绪蔓延导致的社区整体韧性下降问题。现有方法主要集中在建模和仿真,缺乏主动干预和优化策略,无法有效缓解社区恐慌情绪,降低灾害带来的负面影响。

核心思路:论文的核心思路是将灾害场景下的社区韧性问题建模为一个多智能体博弈问题,其中通信、电力和应急管理三个机构作为智能体,通过学习最优的控制策略来降低社区恐慌,提升基础设施恢复速度。这种方法允许各个机构在追求自身目标的同时,考虑到其他机构的行为,从而实现整体最优。

技术框架:论文采用多智能体Actor-Critic强化学习框架。该框架包含三个智能体,分别代表通信、电力和应急管理机构。每个智能体都有自己的Actor网络和Critic网络。Actor网络负责生成控制策略,Critic网络负责评估当前策略的价值。三个智能体通过与环境交互,不断更新Actor和Critic网络,最终学习到最优的控制策略。环境模型基于Valinejad和Mili (2023)的CPS韧性模型扩展而来,包含了电力网络、通信网络和社会行为的耦合动态。

关键创新:论文的关键创新在于将灾害场景下的社区韧性问题建模为一个多智能体非零和微分博弈,并采用在线Actor-Critic强化学习方法求解。这种方法能够有效地处理复杂环境下的多智能体协作问题,并学习到最优的控制策略。与传统的单智能体强化学习方法相比,多智能体方法能够更好地模拟真实世界中多个机构之间的交互。

关键设计:论文采用的Actor-Critic网络结构为多层感知机(MLP)。损失函数包括Actor网络的策略梯度损失和Critic网络的均方误差损失。为了保证学习的稳定性,论文采用了经验回放和目标网络等技术。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在飓风哈维数据上实现了70%的平均恐慌减少,并改善了基础设施恢复。在飓风艾尔玛案例中进行交叉验证(未重新拟合)也实现了50%的恐慌减少,验证了该方法的泛化能力。这些结果表明,该方法能够有效地降低社区恐慌,提升灾害应对能力。

🎯 应用场景

该研究成果可应用于灾害应急管理领域,为政府和相关机构提供决策支持,帮助他们制定更有效的干预策略,降低社区恐慌,提升灾后恢复速度。此外,该方法也可推广到其他复杂系统,例如交通网络、金融市场等,用于优化资源分配和提高系统韧性。未来的研究可以探索更复杂的智能体交互模式和更先进的强化学习算法。

📄 摘要(原文)

During disasters, cascading failures across power grids, communication networks, and social behavior amplify community fear and undermine cooperation. Existing cyber-physical-social (CPS) models simulate these coupled dynamics but lack mechanisms for active intervention. We extend the CPS resilience model of Valinejad and Mili (2023) with control channels for three agencies, communication, power, and emergency management, and formulate the resulting system as a three-player non-zero-sum differential game solved via online actor-critic reinforcement learning. Simulations based on Hurricane Harvey data show 70% mean fear reduction with improved infrastructure recovery; cross-validation in the case of Hurricane Irma (without refitting) achieves 50% fear reduction, confirming generalizability.