Test-Time Learning and Inference-Time Deliberation for Efficiency-First Offline Reinforcement Learning in Care Coordination and Population Health Management

作者: Sanjay Basu, Sadiq Y. Patel, Parth Sheth, Bhairavi Muralidharan, Namrata Elamaran, Aakriti Kinra, Rajaie Batniji

分类: cs.CY, cs.LG

发布日期: 2025-09-19

💡 一句话要点

提出TTL+ITD框架，用于高效、可审计的医疗协调离线强化学习。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 医疗协调 人群健康管理 测试时学习 推理时审议 Q-ensemble 不确定性建模

📋 核心要点

现有医疗协调方案在时间和机会成本上差异显著，需要高效且可审计的决策方案。
论文提出TTL+ITD框架，通过测试时学习和推理时审议，优化离线强化学习策略。
实验表明，该方法在价值估计上表现稳定，并在效率权衡和子群审计方面具有优势。

📝 摘要（中文）

针对医疗协调和人群健康管理项目，该论文提出了一种轻量级的离线强化学习方法，名为TTL+ITD。该方法通过（i）测试时学习，利用局部邻域校准来增强已训练的策略；（ii）推理时审议，利用包含预测不确定性和时间/努力成本的小型Q-ensemble。该方法暴露了邻域大小和不确定性/成本惩罚的透明控制，并保留了可审计的训练流程。在去标识化的运营数据集上的评估表明，TTL+ITD实现了稳定的价值估计，具有可预测的效率权衡和子群审计能力。

🔬 方法详解

问题定义：论文旨在解决医疗协调和人群健康管理中，如何利用离线强化学习制定高效、可审计且适应性强的干预策略的问题。现有方法在时间和机会成本上存在显著差异，且缺乏对不确定性的有效建模，难以在效率和效果之间取得平衡。

核心思路：论文的核心思路是利用测试时学习（Test-Time Learning, TTL）和推理时审议（Inference-Time Deliberation, ITD）来增强离线强化学习策略。TTL通过局部邻域校准来适应新的数据分布，ITD则通过Q-ensemble来考虑预测不确定性和时间/努力成本，从而做出更稳健的决策。

技术框架：整体框架包含离线训练阶段和在线推理阶段。离线训练阶段使用历史数据训练一个初始的强化学习策略。在线推理阶段，首先利用TTL对策略进行局部校准，然后利用ITD，通过Q-ensemble评估不同行动的价值，并结合不确定性和成本进行决策。框架的关键组成部分包括：离线策略学习模块、局部邻域校准模块（TTL）和Q-ensemble审议模块（ITD）。

关键创新：论文的关键创新在于将测试时学习和推理时审议相结合，用于增强离线强化学习策略的鲁棒性和效率。TTL允许策略适应新的数据分布，而ITD则允许策略在决策时考虑不确定性和成本，从而做出更明智的权衡。这种结合使得策略在实际应用中更加可靠和有效。

关键设计：TTL的关键设计在于邻域大小的选择，它决定了局部校准的范围。ITD的关键设计在于Q-ensemble的构建和不确定性/成本惩罚的设置。Q-ensemble通过集成多个Q函数来估计预测的不确定性，而不确定性/成本惩罚则用于调整决策的风险偏好。具体的损失函数和网络结构取决于所使用的离线强化学习算法，但TTL和ITD可以与多种算法相结合。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TTL+ITD框架能够实现稳定的价值估计，并在效率和效果之间取得可预测的权衡。通过调整邻域大小和不确定性/成本惩罚，可以灵活地控制策略的风险偏好和效率。此外，该方法还支持子群审计，可以评估策略在不同人群中的表现，从而确保公平性和可解释性。

🎯 应用场景

该研究成果可应用于各类医疗协调和人群健康管理项目，例如针对慢性病患者的个性化干预、高危人群的早期筛查和预防等。通过优化干预策略，可以提高医疗资源的利用效率，改善患者的健康状况，并降低医疗成本。该方法还可扩展到其他需要高效决策和风险管理的领域。

📄 摘要（原文）

Care coordination and population health management programs serve large Medicaid and safety-net populations and must be auditable, efficient, and adaptable. While clinical risk for outreach modalities is typically low, time and opportunity costs differ substantially across text, phone, video, and in-person visits. We propose a lightweight offline reinforcement learning (RL) approach that augments trained policies with (i) test-time learning via local neighborhood calibration, and (ii) inference-time deliberation via a small Q-ensemble that incorporates predictive uncertainty and time/effort cost. The method exposes transparent dials for neighborhood size and uncertainty/cost penalties and preserves an auditable training pipeline. Evaluated on a de-identified operational dataset, TTL+ITD achieves stable value estimates with predictable efficiency trade-offs and subgroup auditing.

Test-Time Learning and Inference-Time Deliberation for Efficiency-First Offline Reinforcement Learning in Care Coordination and Population Health Management

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理