Agentifying Patient Dynamics within LLMs through Interacting with Clinical World Model

📄 arXiv: 2605.14723v1 📥 PDF

作者: Minghao Wu, Yuting Yan, Zhenyang Cai, Ke Ji, Chuangsen Fang, Ziying Sheng, Xidong Wang, Rongsheng Wang, Hejia Zhang, Shuang Li, Benyou Wang, Hongyuan Zha

分类: cs.AI, cs.CL, cs.LG

发布日期: 2026-05-14


💡 一句话要点

提出SepsisAgent以优化重症监护室脓毒症管理

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 脓毒症管理 大型语言模型 临床决策支持 世界模型 强化学习 智能代理 动态模拟

📋 核心要点

  1. 现有的脓毒症管理方法在快速变化的患者生理状态下,决策过程缺乏一致性和可靠性。
  2. 论文提出SepsisAgent,通过增强的世界模型与LLM结合,模拟患者动态并优化治疗推荐过程。
  3. 实验结果显示,SepsisAgent在MIMIC-IV数据集上超越所有基线,尤其在安全性和指导方针遵循方面表现最佳。

📝 摘要(中文)

脓毒症管理在重症监护室中需要根据快速变化的患者生理状态做出连续治疗决策。尽管大型语言模型(LLMs)能够编码广泛的临床知识并推理指导方针,但它们并未固有地与基于行动的患者动态相结合。本文提出了SepsisAgent,这是一种增强世界模型的LLM代理,用于脓毒症治疗推荐。SepsisAgent利用学习的临床世界模型模拟患者在候选液体-血管收缩药物干预下的反应,并在做出处方之前遵循提议-模拟-精炼的工作流程。研究表明,单靠世界模型的访问会导致LLM决策性能不一致,因此需要特定于代理的训练。通过三阶段课程训练SepsisAgent,最终在MIMIC-IV脓毒症轨迹上超越所有传统的强化学习和基于LLM的基线,展现出最佳的安全性和指导方针遵循情况。

🔬 方法详解

问题定义:本文旨在解决脓毒症管理中,现有方法在快速变化的患者生理状态下决策不一致的问题。现有的LLM虽然具备广泛的知识,但缺乏与患者动态的有效结合。

核心思路:论文提出的SepsisAgent通过引入临床世界模型,模拟患者对不同治疗干预的反应,采用提议-模拟-精炼的工作流程来优化治疗决策。这样的设计使得模型能够在动态环境中进行有效学习和决策。

技术框架:SepsisAgent的整体架构包括三个主要阶段:患者动态监督微调、提议-模拟-精炼行为克隆,以及基于世界模型的代理强化学习。每个阶段都旨在提升模型的决策能力和安全性。

关键创新:最重要的创新在于将世界模型与LLM结合,形成一个能够动态适应患者变化的智能代理。这种方法与传统的强化学习和LLM方法相比,显著提高了决策的一致性和安全性。

关键设计:在训练过程中,采用了特定的损失函数来优化模型的决策过程,并设计了适应性强的网络结构,以便在不同的临床场景中进行有效的模拟和学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SepsisAgent在MIMIC-IV脓毒症轨迹上超越了所有传统的强化学习和基于LLM的基线,尤其在非策略价值方面表现出色,安全性指标也达到了最佳水平,显示出显著的提升幅度。

🎯 应用场景

该研究的潜在应用领域包括重症监护室的脓毒症管理、临床决策支持系统以及其他需要实时动态决策的医疗场景。通过优化治疗推荐,SepsisAgent能够提高患者的生存率和治疗效果,未来可能对临床实践产生深远影响。

📄 摘要(原文)

Sepsis management in the ICU requires sequential treatment decisions under rapidly evolving patient physiology. Although large language models (LLMs) encode broad clinical knowledge and can reason over guidelines, they are not inherently grounded in action-conditioned patient dynamics. We introduce SepsisAgent, a world model-augmented LLM agent for sepsis treatment recommendation. SepsisAgent uses a learned Clinical World Model to simulate patient responses under candidate fluid--vasopressor interventions, and follows a propose--simulate--refine workflow before committing to a prescription. We first show that world-model access alone yields inconsistent LLM decision performance, motivating agent-specific training. We then train SepsisAgent through a three-stage curriculum: patient-dynamics supervised fine-tuning, propose--simulate--refine behavior cloning, and world-model-based agentic reinforcement learning. On MIMIC-IV sepsis trajectories, SepsisAgent outperforms all traditional RL and LLM-based baselines in off-policy value while achieving the best safety profile under guideline adherence and unsafe-action metrics. Further analysis shows that repeated interaction with the Clinical World Model enables the agent to learn regularities in patient evolution, which remain useful even when simulator access is removed.