Quantifying surprise in clinical care: Detecting highly informative events in electronic health records with foundation models

📄 arXiv: 2507.22798v1 📥 PDF

作者: Michael C. Burkhart, Bashar Ramadan, Luke Solo, William F. Parker, Brett K. Beaulieu-Jones

分类: cs.LG

发布日期: 2025-07-30


💡 一句话要点

利用电子病历中的Foundation Model量化临床诊疗中的“意外”事件,从而检测高信息量事件。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 电子病历 Foundation Model 临床决策支持 信息量量化 异常事件检测

📋 核心要点

  1. 现有基于规则的方法难以捕捉电子病历中细微但重要的异常事件,尤其是在患者整体背景下。
  2. 该方法利用Foundation Model,通过量化事件的“意外”程度,识别电子病历中具有高信息量的事件。
  3. 实验表明,模型识别的事件能有效预测患者结局,且部分低信息量事件可安全删除,提升模型效率。

📝 摘要(中文)

本文提出了一种基于Foundation Model的方法,用于识别电子病历中具有高信息量的token和事件。该方法将入院患者的全部上下文数据纳入考虑,从而能够标记出那些基于规则的方法会认为是正常范围内的异常事件。实验证明,模型标记的事件对于预测下游患者结局具有重要意义,并且可以安全地删除一小部分被识别为携带少量信息的事件。此外,本文还展示了信息量如何帮助解释基于Foundation Model衍生表示训练的预后模型的预测结果。

🔬 方法详解

问题定义:现有电子病历分析方法,特别是基于规则的方法,难以有效识别临床诊疗过程中真正具有信息量的事件。这些方法通常只关注局部特征,忽略了患者的整体病史和上下文信息,导致一些重要的、预示病情变化的“意外”事件被忽略。因此,如何从海量的电子病历数据中自动识别出这些高信息量的事件,成为了一个亟待解决的问题。

核心思路:本文的核心思路是利用Foundation Model强大的上下文理解能力,量化电子病历中每个事件的“意外”程度,即该事件与患者既往病史的偏离程度。这种偏离程度越高,说明该事件包含的信息量越大,越值得关注。通过这种方式,模型能够捕捉到那些基于规则的方法难以发现的、隐藏在数据中的重要信息。

技术框架:该方法主要包含以下几个阶段:1) 利用Foundation Model对电子病历数据进行编码,生成患者的上下文表示;2) 计算每个事件的“意外”程度,例如,通过计算该事件的表示与患者既往病史表示之间的距离或差异;3) 根据“意外”程度对事件进行排序,识别出高信息量的事件;4) 利用这些高信息量的事件,预测患者的下游结局,例如,死亡率、住院时长等。

关键创新:该方法最重要的技术创新点在于,它将Foundation Model引入到电子病历分析中,利用其强大的上下文理解能力,量化事件的“意外”程度,从而能够自动识别出那些基于规则的方法难以发现的高信息量事件。与现有方法相比,该方法更加灵活、自适应,能够更好地捕捉到数据中的细微变化。

关键设计:具体的Foundation Model选择未知,但关键在于如何定义和计算事件的“意外”程度。可能的实现方式包括:使用Transformer模型对电子病历进行编码,然后计算每个事件的embedding向量与患者历史embedding向量的余弦相似度或欧氏距离。损失函数的设计也至关重要,需要能够有效地训练模型,使其能够准确地量化事件的“意外”程度。具体的参数设置和网络结构未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该模型标记的事件对于预测下游患者结局具有显著意义。此外,研究还发现,可以安全地删除一小部分被识别为携带少量信息的事件,这有助于降低计算成本,提高模型效率。具体的性能提升数据未知,但该研究为电子病历分析提供了一种新的思路。

🎯 应用场景

该研究成果可应用于临床决策支持系统,帮助医生快速识别患者病情的关键变化,从而做出更准确的诊断和治疗方案。此外,该方法还可用于电子病历数据挖掘,发现潜在的疾病风险因素和治疗模式,为医学研究提供新的思路。未来,该技术有望提升医疗效率,改善患者预后。

📄 摘要(原文)

We present a foundation model-derived method to identify highly informative tokens and events in electronic health records. Our approach considers incoming data in the entire context of a patient's hospitalization and so can flag anomalous events that rule-based approaches would consider within a normal range. We demonstrate that the events our model flags are significant for predicting downstream patient outcomes and that a fraction of events identified as carrying little information can safely be dropped. Additionally, we show how informativeness can help interpret the predictions of prognostic models trained on foundation model-derived representations.