Hybrid Adaptive Conformal Offline Reinforcement Learning for Fair Population Health Management

📄 arXiv: 2509.09772v1 📥 PDF

作者: Sanjay Basu, Sadiq Y. Patel, Parth Sheth, Bhairavi Muralidharan, Namrata Elamaran, Aakriti Kinra, Rajaie Batniji

分类: cs.LG, stat.AP

发布日期: 2025-09-11

备注: 10 pages, 5 figures, 4 tables


💡 一句话要点

提出混合自适应保形离线强化学习(HACO)框架,用于公平的人群健康管理。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 人群健康管理 保形推断 风险控制 公平性 医疗决策 策略评估

📋 核心要点

  1. 现有的人群健康管理项目面临安全、公平和可审计性的挑战,需要谨慎的决策支持。
  2. HACO框架通过分离风险校准和偏好优化,生成保守的行动建议,确保决策的安全性。
  3. 实验表明,HACO在风险区分和安全覆盖率方面表现出色,并能有效识别不同人群的价值差异。

📝 摘要(中文)

本文提出了一种混合自适应保形离线强化学习(HACO)框架,该框架将风险校准与偏好优化分离,从而大规模地生成保守的行动建议,以应用于医疗补助人群的健康管理项目。该项目旨在协调纵向的外展和服务(例如,福利导航、行为健康、社会需求支持和临床安排),并且必须是安全、公平和可审计的。在我们的设置中,每个步骤都涉及在常见的协调行动中进行选择(例如,联系哪个成员,通过哪种方式,以及是否转到专门的服务),同时控制近期不良利用事件的风险(例如,计划外的急诊就诊或住院)。使用来自Waymark的包含168,126名患者的277万个连续决策的去标识化运营数据集,HACO (i) 训练一个轻量级的不良事件风险模型,(ii) 推导一个保形阈值以在目标风险水平下屏蔽不安全的行动,以及 (iii) 在由此产生的安全子集上学习偏好策略。我们使用与版本无关的拟合Q评估 (FQE) 在分层子集上评估策略,并审计跨年龄、性别和种族亚组的表现。HACO实现了强大的风险区分(AUC ~0.81),并具有校准的阈值(在α = 0.10时 τ ~0.038),同时保持了较高的安全覆盖率。亚组分析揭示了不同人群在估计价值方面的系统性差异,突显了公平性审计的重要性。我们的结果表明,保形风险门控与离线强化学习无缝集成,为人群健康管理团队提供保守的、可审计的决策支持。

🔬 方法详解

问题定义:人群健康管理项目需要协调各种服务,但面临着如何安全、公平地做出决策的挑战。现有方法可能无法充分考虑风险,或者难以保证在不同人群中的公平性。因此,需要一种能够提供保守、可审计的决策支持的框架。

核心思路:HACO的核心思路是将风险评估和偏好优化分离。首先,通过风险模型预测不良事件的风险,然后使用保形推断确定一个阈值,以屏蔽高风险的行动。最后,在剩余的安全行动集合上学习偏好策略。这种分离的设计可以确保策略的安全性,并允许对风险进行显式控制。

技术框架:HACO框架包含三个主要阶段:(1) 风险模型训练:使用历史数据训练一个轻量级的风险模型,用于预测不良事件的风险。(2) 保形阈值推导:使用保形推断方法,根据目标风险水平确定一个阈值,用于屏蔽高风险的行动。(3) 偏好策略学习:在剩余的安全行动集合上,使用离线强化学习算法学习偏好策略。整体流程是先保证安全性,再优化偏好,从而实现保守的决策。

关键创新:HACO的关键创新在于将保形推断与离线强化学习相结合,用于风险控制。保形推断提供了一种非参数化的方法来估计风险,而不需要对风险模型进行强假设。这种方法可以有效地屏蔽高风险的行动,从而保证策略的安全性。此外,HACO还强调了公平性审计的重要性,通过对不同人群的价值进行分析,可以发现潜在的偏差。

关键设计:风险模型可以使用任何合适的分类算法,例如逻辑回归或梯度提升树。保形阈值的选择基于目标风险水平α,通常设置为0.10。偏好策略可以使用任何离线强化学习算法,例如拟合Q评估(FQE)。实验中,使用AUC作为风险模型的评估指标,并使用FQE评估策略的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HACO在Waymark的真实数据集上取得了显著成果。风险模型实现了AUC约为0.81的风险区分能力,表明其能够有效识别高风险患者。通过保形推断,HACO在目标风险水平α=0.10时,确定了τ约为0.038的阈值,实现了风险控制。亚组分析揭示了不同人群在估计价值方面的系统性差异,突显了公平性审计的重要性。

🎯 应用场景

HACO框架可应用于各种人群健康管理项目,例如医疗补助计划、慢性病管理和预防保健。它可以帮助医疗机构做出更安全、更公平的决策,从而改善患者的健康状况,降低医疗成本。此外,该框架还可以用于其他需要风险控制和公平性保证的决策问题,例如金融风险管理和刑事司法。

📄 摘要(原文)

Population health management programs for Medicaid populations coordinate longitudinal outreach and services (e.g., benefits navigation, behavioral health, social needs support, and clinical scheduling) and must be safe, fair, and auditable. We present a Hybrid Adaptive Conformal Offline Reinforcement Learning (HACO) framework that separates risk calibration from preference optimization to generate conservative action recommendations at scale. In our setting, each step involves choosing among common coordination actions (e.g., which member to contact, by which modality, and whether to route to a specialized service) while controlling the near-term risk of adverse utilization events (e.g., unplanned emergency department visits or hospitalizations). Using a de-identified operational dataset from Waymark comprising 2.77 million sequential decisions across 168,126 patients, HACO (i) trains a lightweight risk model for adverse events, (ii) derives a conformal threshold to mask unsafe actions at a target risk level, and (iii) learns a preference policy on the resulting safe subset. We evaluate policies with a version-agnostic fitted Q evaluation (FQE) on stratified subsets and audit subgroup performance across age, sex, and race. HACO achieves strong risk discrimination (AUC ~0.81) with a calibrated threshold ( τ ~0.038 at α = 0.10), while maintaining high safe coverage. Subgroup analyses reveal systematic differences in estimated value across demographics, underscoring the importance of fairness auditing. Our results show that conformal risk gating integrates cleanly with offline RL to deliver conservative, auditable decision support for population health management teams.