Feasibility-Guided Fair Adaptive Offline Reinforcement Learning for Medicaid Care Management
作者: Sanjay Basu, Sadiq Y. Patel, Parth Sheth, Bhairavi Muralidharan, Namrata Elamaran, Aakriti Kinra, Rajaie Batniji
分类: cs.LG, cs.AI, cs.LO, stat.AP
发布日期: 2025-09-11
备注: 12 pages, 5 figures, 3 tables
💡 一句话要点
提出可行性引导的公平自适应离线强化学习,用于改善医疗补助计划管理。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 离线强化学习 公平性 医疗补助 可行性引导 自适应学习
📋 核心要点
- 现有方法在医疗补助计划管理中,难以兼顾决策的安全性和不同群体间的公平性。
- FG-FARL通过自适应地调整每个群体的安全阈值,在保证可行性的前提下,优化公平性目标。
- 实验表明,FG-FARL在价值上与基线相当,同时显著提升了公平性指标,具有实际应用价值。
📝 摘要(中文)
本文提出了一种可行性引导的公平自适应强化学习(FG-FARL)离线强化学习方法。该方法通过校准每个群体的安全阈值来减少危害,同时平衡受保护亚群体之间的公平性目标(覆盖率或危害)。我们使用来自医疗补助人口健康管理计划的去识别化纵向轨迹,将FG-FARL与行为克隆(BC)和HACO(混合自适应共形离线强化学习;一种全局共形安全基线)进行评估。我们报告了具有bootstrap 95%置信区间的离策略价值估计,以及具有p值的亚群体差异分析。FG-FARL在提高公平性指标的同时,实现了与基线相当的价值,展示了一种更安全、更公平的决策支持的实用途径。
🔬 方法详解
问题定义:在医疗补助计划管理中,如何利用离线数据学习策略,在保证决策安全性的前提下,最大程度地减少不同人群之间的健康差距,实现公平的资源分配和干预?现有方法要么难以保证安全性,要么无法有效解决公平性问题。
核心思路:FG-FARL的核心思路是针对不同的受保护亚群体,自适应地调整安全阈值,从而在保证每个群体决策可行性的前提下,优化整体的公平性目标。通过这种方式,可以避免对某些群体过度干预或干预不足,从而缩小群体间的差距。
技术框架:FG-FARL的整体框架包括以下几个主要步骤:1) 数据预处理:对医疗补助计划的纵向轨迹数据进行清洗和去识别化处理。2) 安全阈值校准:针对每个受保护亚群体,基于历史数据估计安全阈值,确保策略的可行性。3) 策略学习:利用离线强化学习算法(如行为克隆或HACO)学习策略,同时考虑公平性约束。4) 策略评估:使用离策略评估方法,评估策略的价值和公平性指标。
关键创新:FG-FARL的关键创新在于其可行性引导的公平性优化方法。与传统的全局安全阈值方法不同,FG-FARL能够针对不同的群体自适应地调整安全阈值,从而更好地平衡安全性和公平性。这种方法能够更有效地利用离线数据,学习更安全、更公平的策略。
关键设计:FG-FARL的关键设计包括:1) 使用bootstrap方法估计安全阈值的置信区间,以保证策略的鲁棒性。2) 定义明确的公平性指标,如覆盖率或危害的差异,并将其作为优化目标的一部分。3) 使用离策略评估方法,如重要性采样或双重鲁棒估计,评估策略的价值和公平性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FG-FARL在医疗补助计划管理任务中,能够实现与行为克隆(BC)和混合自适应共形离线强化学习(HACO)相当的价值。更重要的是,FG-FARL在显著提升了公平性指标,例如减少了不同亚群体之间的覆盖率或危害差异,证明了其在实际应用中的有效性和优越性。
🎯 应用场景
FG-FARL可应用于医疗健康领域,例如医疗补助计划管理、疾病预防控制、个性化治疗方案推荐等。通过该方法,可以更公平地分配医疗资源,减少不同人群之间的健康差距,提高医疗服务的质量和效率。此外,该方法还可以推广到其他涉及公平性问题的决策场景,如教育资源分配、信贷风险评估等。
📄 摘要(原文)
We introduce Feasibility-Guided Fair Adaptive Reinforcement Learning (FG-FARL), an offline RL procedure that calibrates per-group safety thresholds to reduce harm while equalizing a chosen fairness target (coverage or harm) across protected subgroups. Using de-identified longitudinal trajectories from a Medicaid population health management program, we evaluate FG-FARL against behavior cloning (BC) and HACO (Hybrid Adaptive Conformal Offline RL; a global conformal safety baseline). We report off-policy value estimates with bootstrap 95% confidence intervals and subgroup disparity analyses with p-values. FG-FARL achieves comparable value to baselines while improving fairness metrics, demonstrating a practical path to safer and more equitable decision support.