MIMIC-IV-Ext-PE: Using a large language model to predict pulmonary embolism phenotype in the MIMIC-IV dataset

📄 arXiv: 2411.00044v1 📥 PDF

作者: B. D. Lam, S. Ma, I. Kovalenko, P. Wang, O. Jafari, A. Li, S. Horng

分类: cs.CL, cs.LG

发布日期: 2024-10-29


💡 一句话要点

利用大型语言模型在MIMIC-IV数据集上预测肺栓塞表型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 肺栓塞 自然语言处理 医学影像 MIMIC-IV Bio_ClinicalBERT VTE-BERT 半监督学习 放射学报告

📋 核心要点

  1. 缺乏大型公开的肺栓塞(PE)标注数据集,限制了相关研究的开展。
  2. 利用预训练的Bio_ClinicalBERT模型VTE-BERT,从CTPA放射学报告中自动提取PE标签。
  3. VTE-BERT在MIMIC-IV数据集上表现出较高的敏感性和阳性预测值,优于诊断代码。

📝 摘要(中文)

肺栓塞(PE)是院内可预防死亡的主要原因。诊断、风险分层和预防方面的进展可以改善预后。目前,包含PE标签的大型公开数据集很少。本研究使用MIMIC-IV数据库,提取了所有可用的计算机断层肺动脉造影(CTPA)扫描的放射学报告,并由两位医生手动将结果标记为PE阳性(急性PE)或PE阴性。然后,我们应用了先前微调的Bio_ClinicalBERT Transformer语言模型VTE-BERT来自动提取标签。我们通过测量其与人工判定的性能来验证VTE-BERT的可靠性。我们还将VTE-BERT的性能与诊断代码进行了比较。结果表明,VTE-BERT对来自急诊室和/或住院的所有19942名CTPA放射学报告患者的敏感性为92.4%,阳性预测值(PPV)为87.8%。相比之下,诊断代码对11990名具有出院诊断代码的住院患者子集的敏感性为95.4%,PPV为83.8%。我们成功地向公开数据集中的CTPA添加了近20000个标签,并证明了半监督语言模型在加速血液学研究中的外部有效性。

🔬 方法详解

问题定义:该论文旨在解决缺乏大型公开肺栓塞(PE)标注数据集的问题。现有方法依赖于人工标注或诊断代码,前者成本高昂,后者准确率有限,无法满足大规模研究的需求。

核心思路:论文的核心思路是利用预训练的Bio_ClinicalBERT模型(VTE-BERT)自动从CTPA放射学报告中提取PE标签。VTE-BERT已经在生物医学文本上进行了微调,能够更好地理解医学术语和上下文,从而提高标注的准确性。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 从MIMIC-IV数据库中提取CTPA放射学报告;2) 由两位医生手动标注一部分报告作为金标准;3) 使用VTE-BERT对所有报告进行自动标注;4) 将VTE-BERT的性能与人工标注和诊断代码进行比较,评估其可靠性。

关键创新:该研究的关键创新在于利用预训练的语言模型VTE-BERT进行半监督的PE标签提取。与传统的基于规则或机器学习的方法相比,VTE-BERT能够更好地捕捉文本中的语义信息,从而提高标注的准确性和效率。此外,该研究还构建了一个包含近20000个标注的CTPA数据集,为后续研究提供了宝贵资源。

关键设计:VTE-BERT是基于BERT的Transformer模型,已经在大量的生物医学文本上进行了预训练和微调。研究人员使用了默认的参数设置,并采用标准的交叉熵损失函数进行训练。模型输入的文本是CTPA放射学报告的全文,输出是该报告是否为PE阳性的概率。

📊 实验亮点

VTE-BERT在MIMIC-IV数据集上实现了92.4%的敏感性和87.8%的阳性预测值,显著优于传统的基于诊断代码的方法(敏感性95.4%,阳性预测值83.8%)。该研究成功地为近20000个CTPA报告添加了PE标签,构建了一个大型公开数据集。

🎯 应用场景

该研究成果可应用于肺栓塞的早期诊断、风险评估和预后预测。通过自动标注CTPA报告,可以构建大规模的PE数据集,用于训练更精确的预测模型。此外,该方法还可以推广到其他疾病的诊断和标注,加速医学研究的进展。

📄 摘要(原文)

Pulmonary embolism (PE) is a leading cause of preventable in-hospital mortality. Advances in diagnosis, risk stratification, and prevention can improve outcomes. There are few large publicly available datasets that contain PE labels for research. Using the MIMIC-IV database, we extracted all available radiology reports of computed tomography pulmonary angiography (CTPA) scans and two physicians manually labeled the results as PE positive (acute PE) or PE negative. We then applied a previously finetuned Bio_ClinicalBERT transformer language model, VTE-BERT, to extract labels automatically. We verified VTE-BERT's reliability by measuring its performance against manual adjudication. We also compared the performance of VTE-BERT to diagnosis codes. We found that VTE-BERT has a sensitivity of 92.4% and positive predictive value (PPV) of 87.8% on all 19,942 patients with CTPA radiology reports from the emergency room and/or hospital admission. In contrast, diagnosis codes have a sensitivity of 95.4% and PPV of 83.8% on the subset of 11,990 hospitalized patients with discharge diagnosis codes. We successfully add nearly 20,000 labels to CTPAs in a publicly available dataset and demonstrate the external validity of a semi-supervised language model in accelerating hematologic research.