Learning optimal treatment strategies for intraoperative hypotension using deep reinforcement learning

作者: Esra Adiyeke, Tianqi Liu, Venkata Sai Dheeraj Naganaboina, Han Li, Tyler J. Loftus, Yuanfang Ren, Benjamin Shickel, Matthew M. Ruppert, Karandeep Singh, Ruogu Fang, Parisa Rashidi, Azra Bihorac, Tezcan Ozrazgat-Baslanti

分类: q-bio.QM, cs.AI, cs.LG

发布日期: 2025-05-27

备注: 41 pages, 1 table, 5 figures, 5 supplemental tables, 6 supplemental figures

💡 一句话要点

利用深度强化学习优化术中低血压的治疗策略

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 术中低血压 治疗策略优化 急性肾损伤 医疗决策 深度Q网络

📋 核心要点

术中低血压管理依赖经验，易变且可能导致术后急性肾损伤（AKI）。
提出基于深度强化学习的治疗策略，通过学习历史数据，推荐静脉输液和血管加压药的最佳剂量。
实验表明，该模型能较好地复现医生决策，并具有降低术后AKI风险的潜力。

📝 摘要（中文）

传统的手术决策方法严重依赖于人类经验和快速反应，这具有可变性。一个基于患者状态生成治疗建议的数据驱动系统，在围手术期决策中可能是一项重要的资产，例如在术中低血压的情况下，对它的次优管理与急性肾损伤（AKI）相关，这是一种常见的且具有高发病率的术后并发症。我们开发了一个强化学习（RL）模型，以推荐手术期间静脉（IV）输液和血管加压药的最佳剂量，从而避免术中低血压和术后AKI。我们回顾性分析了2014年6月至2020年9月期间在一家三级医院接受大型手术的42547名成年患者的50021例手术。其中，34186例手术用于模型训练，15835例手术用于测试。我们开发了一个基于深度Q网络的RL模型，使用16个变量，包括术中生理时间序列、静脉输液的总剂量和每15分钟提取的血管加压药剂量。该模型复制了医生对血管加压药剂量决策的69%，并且分别在10%和21%的治疗中提出了高于或低于实际剂量的血管加压药剂量。在静脉输液方面，该模型的建议在41%的病例中与实际剂量相差0.05 ml/kg/15 min以内，分别在27%和32%的治疗中推荐了更高或更低的剂量。与医生的实际治疗以及随机和零药物策略相比，该模型产生了更高的估计策略价值。在接受与模型决策一致的药物剂量的患者中，AKI的患病率最低。我们的研究结果表明，实施该模型的策略有可能减少术后AKI并改善由术中低血压驱动的其他结果。

🔬 方法详解

问题定义：论文旨在解决术中低血压治疗策略优化问题。现有方法主要依赖医生的经验，缺乏客观数据支持，导致治疗效果不稳定，可能增加术后并发症（如急性肾损伤）的风险。因此，需要一种数据驱动的方法，为医生提供更精准的治疗建议。

核心思路：论文的核心思路是利用深度强化学习（DRL）技术，将术中低血压治疗过程建模为一个马尔可夫决策过程（MDP），通过学习历史手术数据，训练一个智能体，使其能够根据患者的实时生理状态，推荐最佳的静脉输液和血管加压药剂量，从而避免术中低血压，降低术后AKI的风险。

技术框架：该研究采用基于深度Q网络（DQN）的强化学习模型。整体流程如下：1）数据预处理：从历史手术数据中提取相关变量，包括术中生理时间序列、静脉输液和血管加压药剂量等。2）状态表示：将提取的变量作为状态输入到DQN模型中。3）动作空间：定义静脉输液和血管加压药的剂量调整范围作为动作空间。4）奖励函数：设计奖励函数，鼓励模型避免术中低血压和术后AKI。5）模型训练：使用历史数据训练DQN模型，使其学习最佳的治疗策略。6）策略评估：使用测试数据评估模型的性能，并与医生的实际治疗策略进行比较。

关键创新：该研究的关键创新在于将深度强化学习应用于术中低血压治疗策略优化。与传统的基于规则或经验的方法相比，该方法能够自动学习最佳的治疗策略，并根据患者的实时状态进行个性化推荐。此外，该研究还考虑了术后AKI的风险，并将AKI纳入奖励函数的设计中，从而使模型能够学习到更全面的治疗策略。

关键设计：该研究使用深度Q网络（DQN）作为强化学习模型。状态空间包括16个变量，涵盖了患者的生理指标和药物剂量信息。动作空间定义为静脉输液和血管加压药的剂量调整范围。奖励函数的设计旨在鼓励模型维持血压稳定，并降低术后AKI的风险。具体而言，奖励函数可能包含以下几个部分：1）血压奖励：当血压在目标范围内时，给予正向奖励；当血压过高或过低时，给予负向奖励。2）AKI奖励：如果患者术后发生AKI，则给予负向奖励。3）药物剂量惩罚：为了避免过度用药，对过高的药物剂量给予惩罚。具体的网络结构和参数设置在论文中可能没有详细描述，属于未知信息。

📊 实验亮点

实验结果表明，该模型能够较好地复现医生的决策（血管加压药剂量决策的69%），并且在部分情况下能够提出更优的治疗方案。与医生的实际治疗以及随机和零药物策略相比，该模型产生了更高的估计策略价值。此外，接受与模型决策一致的药物剂量的患者，术后AKI的患病率最低，表明该模型具有降低术后AKI风险的潜力。

🎯 应用场景

该研究成果可应用于开发智能化的术中低血压管理系统，辅助医生进行决策，提高治疗效果，降低术后并发症风险。该系统可集成到现有的医疗设备中，实现实时监测和治疗建议，具有广阔的应用前景。未来，该方法还可扩展到其他围手术期并发症的管理中。

📄 摘要（原文）

Traditional methods of surgical decision making heavily rely on human experience and prompt actions, which are variable. A data-driven system generating treatment recommendations based on patient states can be a substantial asset in perioperative decision-making, as in cases of intraoperative hypotension, for which suboptimal management is associated with acute kidney injury (AKI), a common and morbid postoperative complication. We developed a Reinforcement Learning (RL) model to recommend optimum dose of intravenous (IV) fluid and vasopressors during surgery to avoid intraoperative hypotension and postoperative AKI. We retrospectively analyzed 50,021 surgeries from 42,547 adult patients who underwent major surgery at a quaternary care hospital between June 2014 and September 2020. Of these, 34,186 surgeries were used for model training and 15,835 surgeries were reserved for testing. We developed a Deep Q-Networks based RL model using 16 variables including intraoperative physiologic time series, total dose of IV fluid and vasopressors extracted for every 15-minute epoch. The model replicated 69% of physician's decisions for the dosage of vasopressors and proposed higher or lower dosage of vasopressors than received in 10% and 21% of the treatments, respectively. In terms of IV fluids, the model's recommendations were within 0.05 ml/kg/15 min of the actual dose in 41% of the cases, with higher or lower doses recommended for 27% and 32% of the treatments, respectively. The model resulted in a higher estimated policy value compared to the physicians' actual treatments, as well as random and zero-drug policies. AKI prevalence was the lowest in patients receiving medication dosages that aligned with model's decisions. Our findings suggest that implementation of the model's policy has the potential to reduce postoperative AKI and improve other outcomes driven by intraoperative hypotension.

Learning optimal treatment strategies for intraoperative hypotension using deep reinforcement learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理