MIMIC-IV-Ext-PE: Using a large language model to predict pulmonary embolism phenotype in the MIMIC-IV dataset

作者: B. D. Lam, S. Ma, I. Kovalenko, P. Wang, O. Jafari, A. Li, S. Horng

分类: cs.CL, cs.LG

发布日期: 2024-10-29

💡 一句话要点

利用大型语言模型在MIMIC-IV数据集上预测肺栓塞表型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 肺栓塞 自然语言处理 医学影像 MIMIC-IV Bio_ClinicalBERT VTE-BERT 半监督学习 放射学报告

📋 核心要点

缺乏大型公开的肺栓塞（PE）标注数据集，限制了相关研究的开展。
利用预训练的Bio_ClinicalBERT模型VTE-BERT，从CTPA放射学报告中自动提取PE标签。
VTE-BERT在MIMIC-IV数据集上表现出较高的敏感性和阳性预测值，优于诊断代码。

📝 摘要（中文）

肺栓塞（PE）是院内可预防死亡的主要原因。诊断、风险分层和预防方面的进展可以改善预后。目前，包含PE标签的大型公开数据集很少。本研究使用MIMIC-IV数据库，提取了所有可用的计算机断层肺动脉造影（CTPA）扫描的放射学报告，并由两位医生手动将结果标记为PE阳性（急性PE）或PE阴性。然后，我们应用了先前微调的Bio_ClinicalBERT Transformer语言模型VTE-BERT来自动提取标签。我们通过测量其与人工判定的性能来验证VTE-BERT的可靠性。我们还将VTE-BERT的性能与诊断代码进行了比较。结果表明，VTE-BERT对来自急诊室和/或住院的所有19942名CTPA放射学报告患者的敏感性为92.4%，阳性预测值（PPV）为87.8%。相比之下，诊断代码对11990名具有出院诊断代码的住院患者子集的敏感性为95.4%，PPV为83.8%。我们成功地向公开数据集中的CTPA添加了近20000个标签，并证明了半监督语言模型在加速血液学研究中的外部有效性。

🔬 方法详解

问题定义：该论文旨在解决缺乏大型公开肺栓塞（PE）标注数据集的问题。现有方法依赖于人工标注或诊断代码，前者成本高昂，后者准确率有限，无法满足大规模研究的需求。

核心思路：论文的核心思路是利用预训练的Bio_ClinicalBERT模型（VTE-BERT）自动从CTPA放射学报告中提取PE标签。VTE-BERT已经在生物医学文本上进行了微调，能够更好地理解医学术语和上下文，从而提高标注的准确性。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 从MIMIC-IV数据库中提取CTPA放射学报告；2) 由两位医生手动标注一部分报告作为金标准；3) 使用VTE-BERT对所有报告进行自动标注；4) 将VTE-BERT的性能与人工标注和诊断代码进行比较，评估其可靠性。

关键创新：该研究的关键创新在于利用预训练的语言模型VTE-BERT进行半监督的PE标签提取。与传统的基于规则或机器学习的方法相比，VTE-BERT能够更好地捕捉文本中的语义信息，从而提高标注的准确性和效率。此外，该研究还构建了一个包含近20000个标注的CTPA数据集，为后续研究提供了宝贵资源。

关键设计：VTE-BERT是基于BERT的Transformer模型，已经在大量的生物医学文本上进行了预训练和微调。研究人员使用了默认的参数设置，并采用标准的交叉熵损失函数进行训练。模型输入的文本是CTPA放射学报告的全文，输出是该报告是否为PE阳性的概率。

📊 实验亮点

VTE-BERT在MIMIC-IV数据集上实现了92.4%的敏感性和87.8%的阳性预测值，显著优于传统的基于诊断代码的方法（敏感性95.4%，阳性预测值83.8%）。该研究成功地为近20000个CTPA报告添加了PE标签，构建了一个大型公开数据集。

🎯 应用场景

该研究成果可应用于肺栓塞的早期诊断、风险评估和预后预测。通过自动标注CTPA报告，可以构建大规模的PE数据集，用于训练更精确的预测模型。此外，该方法还可以推广到其他疾病的诊断和标注，加速医学研究的进展。

📄 摘要（原文）

Pulmonary embolism (PE) is a leading cause of preventable in-hospital mortality. Advances in diagnosis, risk stratification, and prevention can improve outcomes. There are few large publicly available datasets that contain PE labels for research. Using the MIMIC-IV database, we extracted all available radiology reports of computed tomography pulmonary angiography (CTPA) scans and two physicians manually labeled the results as PE positive (acute PE) or PE negative. We then applied a previously finetuned Bio_ClinicalBERT transformer language model, VTE-BERT, to extract labels automatically. We verified VTE-BERT's reliability by measuring its performance against manual adjudication. We also compared the performance of VTE-BERT to diagnosis codes. We found that VTE-BERT has a sensitivity of 92.4% and positive predictive value (PPV) of 87.8% on all 19,942 patients with CTPA radiology reports from the emergency room and/or hospital admission. In contrast, diagnosis codes have a sensitivity of 95.4% and PPV of 83.8% on the subset of 11,990 hospitalized patients with discharge diagnosis codes. We successfully add nearly 20,000 labels to CTPAs in a publicly available dataset and demonstrate the external validity of a semi-supervised language model in accelerating hematologic research.

MIMIC-IV-Ext-PE: Using a large language model to predict pulmonary embolism phenotype in the MIMIC-IV dataset

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理