The hidden risks of temporal resampling in clinical reinforcement learning

📄 arXiv: 2602.06603v2 📥 PDF

作者: Thomas Frost, Hrisheekesh Vaidya, Steve Harris

分类: cs.LG

发布日期: 2026-02-06 (更新: 2026-02-10)

备注: 12 pages, 4 figures. v2 fixes missing acknowledgements


💡 一句话要点

揭示临床强化学习中时间重采样的潜在风险,强调不规则时间处理的重要性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 时间重采样 临床决策 医疗保健 不规则时间序列

📋 核心要点

  1. 现有临床强化学习研究通常将患者数据聚合到固定时间间隔,忽略了临床决策的不规则性,这可能导致模型性能下降。
  2. 该研究揭示了时间重采样导致性能下降的三种机制:反事实轨迹生成、时间期望扭曲和泛化误差累积。
  3. 实验表明,时间重采样显著降低了离线强化学习算法在实际部署中的性能,且标准离策略评估指标可能无法检测到。

📝 摘要(中文)

离线强化学习(ORL)在改善医疗决策方面显示出潜力。然而,当前研究通常将患者数据聚合到固定的时间间隔内,简化了其到标准ORL框架的映射。这些时间操作对模型安全性和有效性的影响仍然知之甚少。本文通过网格世界导航任务和UVA/Padova临床糖尿病模拟器,证明了时间重采样会显著降低离线强化学习算法在实际部署中的性能。我们提出了导致这种失败的三个机制:(i)反事实轨迹的生成,(ii)时间期望的扭曲,(iii)泛化误差的累积。至关重要的是,我们发现标准的离策略评估指标可能无法检测到这些性能下降。我们的发现揭示了当前医疗保健ORL流程中的一个根本风险,并强调了需要显式处理临床决策不规则时间的方法。

🔬 方法详解

问题定义:论文关注的是在临床强化学习(ORL)中,由于临床数据通常以不规则的时间间隔记录,研究人员为了方便应用标准的ORL算法,会将数据进行时间重采样,例如聚合到固定时间间隔。然而,这种时间重采样操作对最终部署的模型的安全性和有效性会产生什么影响,目前缺乏深入的理解。现有方法忽略了临床决策时间间隔的不规则性,可能导致模型在实际应用中性能下降。

核心思路:论文的核心思路是研究时间重采样对ORL算法性能的影响,并揭示导致性能下降的潜在机制。通过理论分析和实验验证,论文旨在说明时间重采样可能引入偏差,导致模型学习到不准确的策略,从而在实际部署中表现不佳。论文强调需要开发能够显式处理不规则时间间隔的ORL方法。

技术框架:论文使用了两种环境进行实验:一个是网格世界导航任务,用于控制实验条件并分析时间重采样的影响;另一个是UVA/Padova临床糖尿病模拟器,用于模拟真实的临床场景。在这些环境中,论文比较了在原始不规则时间数据和经过时间重采样的数据上训练的ORL算法的性能。论文还分析了标准离策略评估指标在检测性能下降方面的有效性。

关键创新:论文的主要创新在于揭示了时间重采样在临床ORL中的潜在风险,并提出了三种导致性能下降的机制:(1)反事实轨迹的生成,即重采样可能导致生成不真实的轨迹,从而误导模型学习;(2)时间期望的扭曲,即重采样改变了状态转移的时间间隔,导致模型对未来奖励的估计不准确;(3)泛化误差的累积,即重采样可能引入额外的噪声,导致模型泛化能力下降。

关键设计:论文没有提出具体的算法改进,而是侧重于分析现有ORL流程中时间重采样带来的问题。实验中使用了标准的ORL算法,并比较了在不同时间重采样策略下的性能。关键在于设计了能够量化时间重采样对模型性能影响的实验方案,并分析了标准离策略评估指标的局限性。具体参数设置和网络结构取决于所使用的ORL算法,论文重点在于比较不同时间重采样策略的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,时间重采样会显著降低离线强化学习算法在实际部署中的性能。在网格世界导航任务和临床糖尿病模拟器中,经过时间重采样训练的模型性能均明显低于在原始不规则时间数据上训练的模型。更重要的是,研究发现标准的离策略评估指标可能无法准确检测到这些性能下降,这表明现有的评估方法可能无法保证ORL模型在实际应用中的安全性。

🎯 应用场景

该研究成果对医疗保健领域的离线强化学习应用具有重要意义。它提醒研究人员在处理临床数据时,需要谨慎对待时间重采样,并考虑开发能够直接处理不规则时间间隔的ORL算法。这有助于提高ORL模型在实际临床环境中的安全性和有效性,例如个性化治疗方案推荐、药物剂量优化等。

📄 摘要(原文)

Offline reinforcement learning (ORL) has shown potential for improving decision-making in healthcare. However, contemporary research typically aggregates patient data into fixed time intervals, simplifying their mapping to standard ORL frameworks. The impact of these temporal manipulations on model safety and efficacy remains poorly understood. In this work, using both a gridworld navigation task and the UVA/Padova clinical diabetes simulator, we demonstrate that temporal resampling significantly degrades the performance of offline reinforcement learning algorithms during live deployment. We propose three mechanisms that drive this failure: (i) the generation of counterfactual trajectories, (ii) the distortion of temporal expectations, and (iii) the compounding of generalisation errors. Crucially, we find that standard off-policy evaluation metrics can fail to detect these drops in performance. Our findings reveal a fundamental risk in current healthcare ORL pipelines and emphasise the need for methods that explicitly handle the irregular timing of clinical decision-making.