Flexible Blood Glucose Control: Offline Reinforcement Learning from Human Feedback

📄 arXiv: 2501.15972v1 📥 PDF

作者: Harry Emerson, Sam Gordon James, Matthew Guy, Ryan McConville

分类: cs.AI, cs.LG

发布日期: 2025-01-27

备注: 11 pages, 5 figures


💡 一句话要点

PAINT:基于人类反馈的离线强化学习用于个性化血糖控制

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 离线强化学习 奖励学习 糖尿病管理 个性化医疗

📋 核心要点

  1. 现有强化学习方法难以整合T1D患者的专业知识和偏好,限制了其在个性化胰岛素剂量控制中的应用。
  2. PAINT框架通过草图奖励学习和安全约束的离线强化学习,从患者历史数据中学习个性化的胰岛素剂量策略。
  3. 实验表明,PAINT能有效降低血糖风险,并能整合患者的专业知识来应对餐前预判和设备错误等实际问题。

📝 摘要(中文)

本研究提出了一种名为PAINT(T1D胰岛素控制的偏好自适应)的强化学习框架,用于从患者记录中学习灵活的胰岛素剂量策略,以解决现有强化学习方法无法整合患者专业知识和偏好的问题。PAINT采用基于草图的方法进行奖励学习,通过连续的奖励信号标注历史数据,以反映患者期望的结果。标记数据用于训练奖励模型,从而指导一种新颖的、安全约束的离线强化学习算法,该算法旨在将动作限制在安全策略范围内,并通过滑动刻度实现偏好调整。在模拟评估中,PAINT通过简单地标记期望状态来实现常见的血糖目标,与商业基准相比,降低了15%的血糖风险。动作标记还可用于整合患者的专业知识,展示了在餐前预判(餐后时间范围内+10%)和解决某些设备错误(错误后方差-1.6%)的能力。这些结果在包括有限样本、标记错误和患者内变异等实际条件下仍然成立。这项工作展示了PAINT在真实世界T1D管理以及更广泛的任何需要安全约束下快速、精确的偏好学习的任务中的潜力。

🔬 方法详解

问题定义:论文旨在解决1型糖尿病(T1D)患者的个性化胰岛素剂量控制问题。现有强化学习方法虽然在模拟环境中取得了成功,但无法有效整合患者的专业知识和偏好,导致实际应用受限。此外,直接在线强化学习可能存在安全风险,需要一种能够从历史数据中学习,并保证安全性的方法。

核心思路:PAINT的核心思路是利用离线强化学习,从患者的历史数据中学习胰岛素剂量策略。通过引入基于草图的奖励学习方法,允许患者或医生对历史数据进行标注,表达其对血糖控制的偏好。然后,利用这些标注数据训练奖励模型,并将其用于指导强化学习算法,从而实现个性化的胰岛素剂量控制。同时,采用安全约束的强化学习算法,确保学习到的策略在安全范围内。

技术框架:PAINT框架主要包含三个模块:数据标注模块、奖励模型训练模块和策略学习模块。首先,患者或医生对历史血糖数据进行标注,标注期望的血糖范围和胰岛素剂量。然后,利用标注数据训练奖励模型,该模型能够预测给定血糖状态和胰岛素剂量下的奖励值。最后,利用离线强化学习算法,基于奖励模型学习胰岛素剂量策略。该策略在学习过程中受到安全约束,以避免出现低血糖等风险。

关键创新:PAINT的关键创新在于将基于草图的奖励学习与安全约束的离线强化学习相结合。基于草图的奖励学习允许患者或医生直接表达其对血糖控制的偏好,从而实现个性化定制。安全约束的离线强化学习则保证了学习到的策略在安全范围内,避免了在线强化学习可能存在的风险。此外,该方法能够从有限的历史数据中学习,降低了数据收集的成本。

关键设计:奖励模型采用神经网络结构,输入为血糖状态和胰岛素剂量,输出为奖励值。奖励函数的设计需要考虑血糖控制的目标,例如时间范围内(Time-in-Range, TIR)和低血糖风险。安全约束通过限制胰岛素剂量的范围来实现,例如限制最大剂量和最小剂量。离线强化学习算法采用保守策略优化(Conservative Policy Optimization, CPO)或类似算法,以保证策略的安全性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PAINT能够有效降低血糖风险,与商业基准相比,降低了15%的血糖风险。此外,PAINT能够整合患者的专业知识,在餐前预判方面,餐后时间范围内提高了10%。在处理设备错误方面,错误后方差降低了1.6%。这些结果表明,PAINT在实际应用中具有很大的潜力。

🎯 应用场景

PAINT框架具有广泛的应用前景,可用于个性化糖尿病管理、慢性病管理等领域。通过整合患者的专业知识和偏好,可以提高治疗效果和患者满意度。此外,该框架还可以应用于其他需要安全约束和快速偏好学习的任务,例如机器人控制、自动驾驶等。

📄 摘要(原文)

Reinforcement learning (RL) has demonstrated success in automating insulin dosing in simulated type 1 diabetes (T1D) patients but is currently unable to incorporate patient expertise and preference. This work introduces PAINT (Preference Adaptation for INsulin control in T1D), an original RL framework for learning flexible insulin dosing policies from patient records. PAINT employs a sketch-based approach for reward learning, where past data is annotated with a continuous reward signal to reflect patient's desired outcomes. Labelled data trains a reward model, informing the actions of a novel safety-constrained offline RL algorithm, designed to restrict actions to a safe strategy and enable preference tuning via a sliding scale. In-silico evaluation shows PAINT achieves common glucose goals through simple labelling of desired states, reducing glycaemic risk by 15% over a commercial benchmark. Action labelling can also be used to incorporate patient expertise, demonstrating an ability to pre-empt meals (+10% time-in-range post-meal) and address certain device errors (-1.6% variance post-error) with patient guidance. These results hold under realistic conditions, including limited samples, labelling errors, and intra-patient variability. This work illustrates PAINT's potential in real-world T1D management and more broadly any tasks requiring rapid and precise preference learning under safety constraints.