Feasibility-Guided Fair Adaptive Offline Reinforcement Learning for Medicaid Care Management

作者: Sanjay Basu, Sadiq Y. Patel, Parth Sheth, Bhairavi Muralidharan, Namrata Elamaran, Aakriti Kinra, Rajaie Batniji

分类: cs.LG, cs.AI, cs.LO, stat.AP

发布日期: 2025-09-11

备注: 12 pages, 5 figures, 3 tables

💡 一句话要点

提出可行性引导的公平自适应离线强化学习，用于改善医疗补助计划管理。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 公平性 医疗补助 可行性引导 自适应学习

📋 核心要点

现有方法在医疗补助计划管理中，难以兼顾决策的安全性和不同群体间的公平性。
FG-FARL通过自适应地调整每个群体的安全阈值，在保证可行性的前提下，优化公平性目标。
实验表明，FG-FARL在价值上与基线相当，同时显著提升了公平性指标，具有实际应用价值。

📝 摘要（中文）

本文提出了一种可行性引导的公平自适应强化学习（FG-FARL）离线强化学习方法。该方法通过校准每个群体的安全阈值来减少危害，同时平衡受保护亚群体之间的公平性目标（覆盖率或危害）。我们使用来自医疗补助人口健康管理计划的去识别化纵向轨迹，将FG-FARL与行为克隆（BC）和HACO（混合自适应共形离线强化学习；一种全局共形安全基线）进行评估。我们报告了具有bootstrap 95%置信区间的离策略价值估计，以及具有p值的亚群体差异分析。FG-FARL在提高公平性指标的同时，实现了与基线相当的价值，展示了一种更安全、更公平的决策支持的实用途径。

🔬 方法详解

问题定义：在医疗补助计划管理中，如何利用离线数据学习策略，在保证决策安全性的前提下，最大程度地减少不同人群之间的健康差距，实现公平的资源分配和干预？现有方法要么难以保证安全性，要么无法有效解决公平性问题。

核心思路：FG-FARL的核心思路是针对不同的受保护亚群体，自适应地调整安全阈值，从而在保证每个群体决策可行性的前提下，优化整体的公平性目标。通过这种方式，可以避免对某些群体过度干预或干预不足，从而缩小群体间的差距。

技术框架：FG-FARL的整体框架包括以下几个主要步骤：1) 数据预处理：对医疗补助计划的纵向轨迹数据进行清洗和去识别化处理。2) 安全阈值校准：针对每个受保护亚群体，基于历史数据估计安全阈值，确保策略的可行性。3) 策略学习：利用离线强化学习算法（如行为克隆或HACO）学习策略，同时考虑公平性约束。4) 策略评估：使用离策略评估方法，评估策略的价值和公平性指标。

关键创新：FG-FARL的关键创新在于其可行性引导的公平性优化方法。与传统的全局安全阈值方法不同，FG-FARL能够针对不同的群体自适应地调整安全阈值，从而更好地平衡安全性和公平性。这种方法能够更有效地利用离线数据，学习更安全、更公平的策略。

关键设计：FG-FARL的关键设计包括：1) 使用bootstrap方法估计安全阈值的置信区间，以保证策略的鲁棒性。2) 定义明确的公平性指标，如覆盖率或危害的差异，并将其作为优化目标的一部分。3) 使用离策略评估方法，如重要性采样或双重鲁棒估计，评估策略的价值和公平性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FG-FARL在医疗补助计划管理任务中，能够实现与行为克隆（BC）和混合自适应共形离线强化学习（HACO）相当的价值。更重要的是，FG-FARL在显著提升了公平性指标，例如减少了不同亚群体之间的覆盖率或危害差异，证明了其在实际应用中的有效性和优越性。

🎯 应用场景

FG-FARL可应用于医疗健康领域，例如医疗补助计划管理、疾病预防控制、个性化治疗方案推荐等。通过该方法，可以更公平地分配医疗资源，减少不同人群之间的健康差距，提高医疗服务的质量和效率。此外，该方法还可以推广到其他涉及公平性问题的决策场景，如教育资源分配、信贷风险评估等。

📄 摘要（原文）

We introduce Feasibility-Guided Fair Adaptive Reinforcement Learning (FG-FARL), an offline RL procedure that calibrates per-group safety thresholds to reduce harm while equalizing a chosen fairness target (coverage or harm) across protected subgroups. Using de-identified longitudinal trajectories from a Medicaid population health management program, we evaluate FG-FARL against behavior cloning (BC) and HACO (Hybrid Adaptive Conformal Offline RL; a global conformal safety baseline). We report off-policy value estimates with bootstrap 95% confidence intervals and subgroup disparity analyses with p-values. FG-FARL achieves comparable value to baselines while improving fairness metrics, demonstrating a practical path to safer and more equitable decision support.

Feasibility-Guided Fair Adaptive Offline Reinforcement Learning for Medicaid Care Management

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理