Test-Time Learning and Inference-Time Deliberation for Efficiency-First Offline Reinforcement Learning in Care Coordination and Population Health Management

📄 arXiv: 2509.16291v1 📥 PDF

作者: Sanjay Basu, Sadiq Y. Patel, Parth Sheth, Bhairavi Muralidharan, Namrata Elamaran, Aakriti Kinra, Rajaie Batniji

分类: cs.CY, cs.LG

发布日期: 2025-09-19


💡 一句话要点

提出TTL+ITD框架,用于高效、可审计的医疗协调离线强化学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 医疗协调 人群健康管理 测试时学习 推理时审议 Q-ensemble 不确定性建模

📋 核心要点

  1. 现有医疗协调方案在时间和机会成本上差异显著,需要高效且可审计的决策方案。
  2. 论文提出TTL+ITD框架,通过测试时学习和推理时审议,优化离线强化学习策略。
  3. 实验表明,该方法在价值估计上表现稳定,并在效率权衡和子群审计方面具有优势。

📝 摘要(中文)

针对医疗协调和人群健康管理项目,该论文提出了一种轻量级的离线强化学习方法,名为TTL+ITD。该方法通过(i)测试时学习,利用局部邻域校准来增强已训练的策略;(ii)推理时审议,利用包含预测不确定性和时间/努力成本的小型Q-ensemble。该方法暴露了邻域大小和不确定性/成本惩罚的透明控制,并保留了可审计的训练流程。在去标识化的运营数据集上的评估表明,TTL+ITD实现了稳定的价值估计,具有可预测的效率权衡和子群审计能力。

🔬 方法详解

问题定义:论文旨在解决医疗协调和人群健康管理中,如何利用离线强化学习制定高效、可审计且适应性强的干预策略的问题。现有方法在时间和机会成本上存在显著差异,且缺乏对不确定性的有效建模,难以在效率和效果之间取得平衡。

核心思路:论文的核心思路是利用测试时学习(Test-Time Learning, TTL)和推理时审议(Inference-Time Deliberation, ITD)来增强离线强化学习策略。TTL通过局部邻域校准来适应新的数据分布,ITD则通过Q-ensemble来考虑预测不确定性和时间/努力成本,从而做出更稳健的决策。

技术框架:整体框架包含离线训练阶段和在线推理阶段。离线训练阶段使用历史数据训练一个初始的强化学习策略。在线推理阶段,首先利用TTL对策略进行局部校准,然后利用ITD,通过Q-ensemble评估不同行动的价值,并结合不确定性和成本进行决策。框架的关键组成部分包括:离线策略学习模块、局部邻域校准模块(TTL)和Q-ensemble审议模块(ITD)。

关键创新:论文的关键创新在于将测试时学习和推理时审议相结合,用于增强离线强化学习策略的鲁棒性和效率。TTL允许策略适应新的数据分布,而ITD则允许策略在决策时考虑不确定性和成本,从而做出更明智的权衡。这种结合使得策略在实际应用中更加可靠和有效。

关键设计:TTL的关键设计在于邻域大小的选择,它决定了局部校准的范围。ITD的关键设计在于Q-ensemble的构建和不确定性/成本惩罚的设置。Q-ensemble通过集成多个Q函数来估计预测的不确定性,而不确定性/成本惩罚则用于调整决策的风险偏好。具体的损失函数和网络结构取决于所使用的离线强化学习算法,但TTL和ITD可以与多种算法相结合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TTL+ITD框架能够实现稳定的价值估计,并在效率和效果之间取得可预测的权衡。通过调整邻域大小和不确定性/成本惩罚,可以灵活地控制策略的风险偏好和效率。此外,该方法还支持子群审计,可以评估策略在不同人群中的表现,从而确保公平性和可解释性。

🎯 应用场景

该研究成果可应用于各类医疗协调和人群健康管理项目,例如针对慢性病患者的个性化干预、高危人群的早期筛查和预防等。通过优化干预策略,可以提高医疗资源的利用效率,改善患者的健康状况,并降低医疗成本。该方法还可扩展到其他需要高效决策和风险管理的领域。

📄 摘要(原文)

Care coordination and population health management programs serve large Medicaid and safety-net populations and must be auditable, efficient, and adaptable. While clinical risk for outreach modalities is typically low, time and opportunity costs differ substantially across text, phone, video, and in-person visits. We propose a lightweight offline reinforcement learning (RL) approach that augments trained policies with (i) test-time learning via local neighborhood calibration, and (ii) inference-time deliberation via a small Q-ensemble that incorporates predictive uncertainty and time/effort cost. The method exposes transparent dials for neighborhood size and uncertainty/cost penalties and preserves an auditable training pipeline. Evaluated on a de-identified operational dataset, TTL+ITD achieves stable value estimates with predictable efficiency trade-offs and subgroup auditing.