Optimizing Resource-Constrained Non-Pharmaceutical Interventions for Multi-Cluster Outbreak Control Using Hierarchical Reinforcement Learning
作者: Xueqiao Peng, Andrew Perrault
分类: cs.LG
发布日期: 2026-03-19
💡 一句话要点
提出分层强化学习框架,优化资源约束下多集群疫情控制的非药物干预措施
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 分层强化学习 非药物干预 疫情控制 资源分配 多集群优化
📋 核心要点
- 现有方法难以在资源有限的情况下,有效分配非药物干预措施以控制多集群疫情爆发,尤其是在集群异步到达且规模各异时。
- 论文提出一种分层强化学习框架,通过全局控制器调整资源需求,局部策略评估资源分配的边际价值,从而优化资源分配。
- 在SARS-CoV-2模拟器中,该方法优于RMAB启发式基线,将疫情控制有效性提高了20%-30%,并展现出良好的可扩展性。
📝 摘要(中文)
非药物干预(NPIs),如诊断检测和隔离,对于控制传染病爆发至关重要,但通常受到有限资源的约束,尤其是在爆发早期阶段。在实际公共卫生环境中,资源必须在异步出现、规模和风险各异且竞争共享资源预算的多个爆发集群之间进行分配。这里,一个集群对应于由单个受感染的索引病例产生的一组密切接触者。因此,必须在不确定性和异构需求下做出决策,同时尊重操作约束。我们将此问题建模为受约束的restless multi-armed bandit问题,并提出了一种分层强化学习框架。全局控制器学习一个连续的行动成本乘数,用于调整全局资源需求,而广义局部策略估计将资源分配给每个集群内个体的边际价值。我们在具有动态到达集群的SARS-CoV-2的真实agent-based模拟器中评估了所提出的框架。在广泛的系统规模和测试预算范围内,我们的方法始终优于RMAB启发式和启发式基线,将爆发控制有效性提高了20%-30%。对多达40个并发活动集群的实验进一步表明,分层框架具有高度可扩展性,并且比RMAB启发式方法能够更快地做出决策。
🔬 方法详解
问题定义:论文旨在解决资源受限情况下,如何优化非药物干预措施(NPIs)在多个异步到达、规模和风险各异的疫情集群中的分配问题。现有方法,如传统的Restless Multi-Armed Bandit (RMAB) 方法,在处理大规模、动态变化的环境时,计算复杂度高,难以快速做出决策,且难以有效平衡全局资源需求和局部集群需求。
核心思路:论文的核心思路是采用分层强化学习(Hierarchical Reinforcement Learning, HRL)框架,将资源分配问题分解为全局资源调控和局部集群资源分配两个层次。全局控制器负责学习一个连续的行动成本乘数,用于调整全局资源需求,从而实现对整体资源使用的宏观调控。局部策略则负责评估将资源分配给每个集群内个体的边际价值,从而实现对局部集群资源分配的精细化管理。
技术框架:整体框架包含两个主要模块:全局控制器和局部策略。全局控制器接收系统状态(例如,当前活跃集群数量、剩余资源量)作为输入,输出一个连续的行动成本乘数。局部策略则针对每个集群,接收集群状态(例如,集群规模、感染风险)作为输入,输出资源分配方案。这两个模块通过强化学习算法进行训练,目标是最小化疫情爆发规模。
关键创新:论文的关键创新在于将分层强化学习应用于资源受限的多集群疫情控制问题。通过全局控制器和局部策略的协同作用,该框架能够有效地平衡全局资源需求和局部集群需求,从而实现更优的资源分配策略。此外,该框架具有良好的可扩展性,能够处理大规模、动态变化的环境。与传统的RMAB方法相比,该框架能够更快地做出决策,并取得更好的疫情控制效果。
关键设计:全局控制器和局部策略均采用深度神经网络进行建模。全局控制器使用一个多层感知机(MLP)来学习行动成本乘数。局部策略使用一个广义策略网络,该网络能够处理不同规模和风险的集群。损失函数的设计目标是最小化疫情爆发规模,同时考虑资源约束。具体而言,损失函数包括两部分:一部分是疫情爆发规模的惩罚项,另一部分是资源使用量的惩罚项。通过调整这两个惩罚项的权重,可以控制资源的使用量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在SARS-CoV-2模拟器中,该方法在各种系统规模和测试预算下,始终优于RMAB启发式和启发式基线,将疫情控制有效性提高了20%-30%。在多达40个并发活动集群的实验中,该方法展现出高度可扩展性,并且比RMAB启发式方法能够更快地做出决策。这些结果表明,该方法在实际应用中具有显著优势。
🎯 应用场景
该研究成果可应用于实际公共卫生领域,帮助决策者在资源有限的情况下,优化非药物干预措施的分配,从而更有效地控制传染病爆发。例如,在疫情早期阶段,可以利用该方法指导诊断检测和隔离资源的分配,降低疫情传播风险。此外,该方法还可以扩展到其他资源分配问题,如医疗资源调度、应急物资分配等。
📄 摘要(原文)
Non-pharmaceutical interventions (NPIs), such as diagnostic testing and quarantine, are crucial for controlling infectious disease outbreaks but are often constrained by limited resources, particularly in early outbreak stages. In real-world public health settings, resources must be allocated across multiple outbreak clusters that emerge asynchronously, vary in size and risk, and compete for a shared resource budget. Here, a cluster corresponds to a group of close contacts generated by a single infected index case. Thus, decisions must be made under uncertainty and heterogeneous demands, while respecting operational constraints. We formulate this problem as a constrained restless multi-armed bandit and propose a hierarchical reinforcement learning framework. A global controller learns a continuous action cost multiplier that adjusts global resource demand, while a generalized local policy estimates the marginal value of allocating resources to individuals within each cluster. We evaluate the proposed framework in a realistic agent-based simulator of SARS-CoV-2 with dynamically arriving clusters. Across a wide range of system scales and testing budgets, our method consistently outperforms RMAB-inspired and heuristic baselines, improving outbreak control effectiveness by 20%-30%. Experiments on up to 40 concurrently active clusters further demonstrate that the hierarchical framework is highly scalable and enables faster decision-making than the RMAB-inspired method.