H2-MARL: Multi-Agent Reinforcement Learning for Pareto Optimality in Hospital Capacity Strain and Human Mobility during Epidemic

📄 arXiv: 2503.10907v1 📥 PDF

作者: Xueting Luo, Hao Deng, Jihong Yang, Yao Shen, Huanhuan Guo, Zhiyuan Sun, Mingqing Liu, Jiming Wei, Shengjie Zhao

分类: cs.MA, cs.AI, cs.CY

发布日期: 2025-03-13


💡 一句话要点

提出H2-MARL,用于疫情期间医院容量压力和人类流动性的帕累托最优多智能体强化学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 多智能体强化学习 疫情控制 人类流动性管理 医院容量优化 帕累托最优

📋 核心要点

  1. 现有基于强化学习的人类流动性管理方法难以在乡镇层面进行协调控制,且难以适应不同规模的城市。
  2. H2-MARL将城市划分为多个智能体,通过设计双重目标奖励函数和利用专家知识,实现医院容量和人类流动性的帕累托最优。
  3. 实验表明,H2-MARL能够有效平衡医院容量压力和人类流动性限制损失,并在不同规模的城市中展现出良好的适用性。

📝 摘要(中文)

在COVID-19之后,有效平衡限制人类流动性带来的损失和确保医院容量之间的关系变得至关重要。最近,基于强化学习(RL)的人类流动性管理策略在应对城市和疫情的动态演变方面取得了进展;然而,它们在实现乡镇层面的协调控制和适应不同规模的城市方面仍然面临挑战。为了解决上述问题,我们提出了一种多智能体RL方法,该方法在管理医院容量和人类流动性方面实现了帕累托最优(H2-MARL),适用于不同规模的城市。我们首先开发了一个具有在线可更新参数的乡镇级感染模型,以模拟疾病传播,并构建一个城市范围内的动态时空疫情模拟器。在此基础上,H2-MARL被设计为将每个区域视为一个智能体,制定了权衡双重目标的奖励函数,并构建了一个富含专家知识的经验回放缓冲区。为了评估模型的有效性,我们构建了一个包含来自四个不同规模代表性城市的超过10亿条记录的乡镇级人类流动性数据集。大量的实验表明,H2-MARL具有最优的双重目标权衡能力,可以最大限度地减少医院容量压力,同时最大限度地减少人类流动性限制损失。同时,验证了所提出的模型在不同规模城市疫情控制中的适用性,展示了其在实际应用中的可行性和通用性。

🔬 方法详解

问题定义:论文旨在解决疫情期间如何在限制人类流动性和保证医院容量之间取得最佳平衡的问题。现有方法难以在乡镇层面进行协调控制,并且难以适应不同规模的城市,导致控制效果不佳或过度限制。

核心思路:论文的核心思路是将城市划分为多个智能体,每个智能体代表一个乡镇,通过多智能体强化学习来协调控制各个乡镇的人类流动性。通过设计一个双重目标的奖励函数,鼓励智能体在最小化医院容量压力和最小化人类流动性限制损失之间进行权衡,从而达到帕累托最优。

技术框架:H2-MARL的整体框架包括以下几个主要模块:1) 乡镇级感染模型:用于模拟疾病在乡镇内的传播,模型参数可以根据在线数据进行更新。2) 城市级疫情模拟器:基于乡镇级感染模型,构建一个城市范围内的动态时空疫情模拟器。3) 多智能体强化学习:将每个乡镇视为一个智能体,通过强化学习算法来学习控制策略。4) 经验回放缓冲区:用于存储智能体的经验,并利用专家知识来丰富经验回放缓冲区。

关键创新:H2-MARL的关键创新在于:1) 提出了一个双重目标的奖励函数,能够有效平衡医院容量压力和人类流动性限制损失。2) 利用专家知识来丰富经验回放缓冲区,加速了学习过程并提高了控制效果。3) 该方法具有良好的可扩展性,可以应用于不同规模的城市。

关键设计:双重目标奖励函数的设计是关键,它由两部分组成:一部分是与医院容量压力相关的奖励,另一部分是与人类流动性限制损失相关的奖励。通过调整两部分的权重,可以控制模型在两个目标之间的权衡。经验回放缓冲区的设计也至关重要,通过加入专家知识,可以引导智能体更快地学习到有效的控制策略。具体的网络结构和强化学习算法的选择(未知,论文中未明确说明)也会影响最终的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,H2-MARL在最小化医院容量压力和人类流动性限制损失方面具有最优的双重目标权衡能力。该模型在四个不同规模的代表性城市中进行了测试,验证了其在不同城市中的适用性。具体性能数据和对比基线(未知,论文摘要中未明确说明),但强调了其优于现有方法的潜力。

🎯 应用场景

该研究成果可应用于疫情期间的城市管理和控制,帮助政府部门制定更加科学合理的防控策略,在保障公共健康的同时,最大限度地减少对经济和社会的影响。此外,该方法还可以扩展到其他涉及多目标优化的城市管理问题,例如交通拥堵控制、环境污染治理等。

📄 摘要(原文)

The necessity of achieving an effective balance between minimizing the losses associated with restricting human mobility and ensuring hospital capacity has gained significant attention in the aftermath of COVID-19. Reinforcement learning (RL)-based strategies for human mobility management have recently advanced in addressing the dynamic evolution of cities and epidemics; however, they still face challenges in achieving coordinated control at the township level and adapting to cities of varying scales. To address the above issues, we propose a multi-agent RL approach that achieves Pareto optimality in managing hospital capacity and human mobility (H2-MARL), applicable across cities of different scales. We first develop a township-level infection model with online-updatable parameters to simulate disease transmission and construct a city-wide dynamic spatiotemporal epidemic simulator. On this basis, H2-MARL is designed to treat each division as an agent, with a trade-off dual-objective reward function formulated and an experience replay buffer enriched with expert knowledge built. To evaluate the effectiveness of the model, we construct a township-level human mobility dataset containing over one billion records from four representative cities of varying scales. Extensive experiments demonstrate that H2-MARL has the optimal dual-objective trade-off capability, which can minimize hospital capacity strain while minimizing human mobility restriction loss. Meanwhile, the applicability of the proposed model to epidemic control in cities of varying scales is verified, which showcases its feasibility and versatility in practical applications.