Evaluating Large Language Models for Automated Clinical Abstraction in Pulmonary Embolism Registries: Performance Across Model Sizes, Versions, and Parameters

📄 arXiv: 2503.21004v3 📥 PDF

作者: Mahmoud Alwakeel, Emory Buck, Jonathan G. Martin, Imran Aslam, Sudarshan Rajagopal, Jian Pei, Mihai V. Podgoreanu, Christopher J. Lindsell, An-Kwok Ian Wong

分类: cs.CL

发布日期: 2025-03-26 (更新: 2025-08-11)


💡 一句话要点

利用大型语言模型自动化肺栓塞登记研究中的临床信息抽取,实现数据质量保障。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 临床信息抽取 肺栓塞 自动化 数据质量 双模型审查 自然语言处理

📋 核心要点

  1. 肺栓塞登记研究依赖于人工信息抽取,耗时耗力,存在自动化需求。
  2. 利用大型语言模型自动抽取CTPE报告中的关键信息,并设计双模型审查流程。
  3. 实验结果表明,大型语言模型能够高效准确地完成信息抽取任务,双模型审查进一步提升数据质量。

📝 摘要(中文)

肺栓塞(PE)登记研究加速了实践改进研究,但依赖于耗费资源的人工放射报告信息抽取。本研究评估了开放可用的大型语言模型(LLM)是否可以在不牺牲数据质量的前提下,自动从计算机断层扫描肺栓塞(CTPE)报告中提取概念。在来自MIMIC-IV和杜克大学的各250份双重标注CTPE报告上测试了四种Llama-3 (L3)变体(3.0 8 B, 3.1 8 B, 3.1 70 B, 3.3 70 B)和两种reviewer模型Phi-4 (P4) 14 B和Gemma-3 27 B (G3)。结果包括准确率、阳性预测值(PPV)和阴性预测值(NPV),与人类金标准相比,涵盖了模型大小、温度设置和few-shot数量。所有概念的平均准确率随规模增加而提高:0.83 (L3-0 8 B),0.91 (L3-1 8 B),以及两种70 B变体的0.96;P4 14 B达到0.98;G3与之相当。数据集之间的准确率差异小于0.03,突出了外部鲁棒性。在双模型一致性分析(L3 70 B + P4 14 B)中,PE存在的PPV >= 0.95,NPV >= 0.98,而位置、血栓负荷、右心室劳损和图像质量伪影均保持PPV >= 0.90和NPV >= 0.95。少于4%的个体概念标注存在不一致,超过75%的报告观察到完全一致。G3表现相当。因此,LLM为PE登记研究信息抽取提供了一种可扩展、准确的解决方案,双模型审查工作流程可以进一步保障数据质量,并最大限度地减少人工监督。

🔬 方法详解

问题定义:本研究旨在解决肺栓塞登记研究中,人工从CTPE报告中抽取临床信息耗时耗力的问题。现有方法依赖人工,效率低且成本高,难以大规模应用。因此,需要一种自动化的信息抽取方法,以提高效率并降低成本。

核心思路:本研究的核心思路是利用大型语言模型(LLM)的强大自然语言理解和生成能力,直接从CTPE报告的文本中提取关键临床概念。通过训练和评估不同规模和架构的LLM,找到在准确性和效率之间取得平衡的模型。此外,引入双模型审查流程,进一步提高数据质量。

技术框架:整体流程包括以下几个步骤:1) 数据准备:收集并标注CTPE报告,构建训练和测试数据集。2) 模型选择:选择多种开源LLM,包括Llama-3、Phi-4和Gemma-3等。3) 模型训练与评估:使用标注数据对LLM进行微调,并评估其在信息抽取任务上的性能,指标包括准确率、PPV和NPV。4) 双模型审查:使用两个不同的LLM独立抽取信息,并比较结果,对于不一致的结果进行人工审查。

关键创新:本研究的关键创新在于:1) 探索了多种开源LLM在临床信息抽取任务中的性能,并比较了不同模型规模和架构的影响。2) 提出了双模型审查流程,有效提高了数据质量,并降低了人工审查的需求。3) 验证了LLM在不同数据集上的泛化能力,表明其具有良好的外部鲁棒性。

关键设计:研究中使用了不同规模的Llama-3模型(8B和70B),以及Phi-4 (14B) 和 Gemma-3 (27B) 模型。实验中调整了温度参数,并采用了few-shot学习策略。评估指标包括准确率、阳性预测值(PPV)和阴性预测值(NPV)。双模型审查流程中,对于不一致的结果,由人工专家进行裁决。

📊 实验亮点

实验结果表明,大型语言模型在肺栓塞临床信息抽取任务中表现出色。Llama-3 70B、Phi-4 14B和Gemma-3 27B模型均达到了较高的准确率(>0.96)。双模型一致性分析显示,PE存在的PPV >= 0.95,NPV >= 0.98,其他关键概念的PPV和NPV也均高于0.90和0.95。数据集之间的准确率差异小于0.03,验证了模型的外部鲁棒性。

🎯 应用场景

该研究成果可应用于自动化临床数据抽取,加速肺栓塞等疾病的登记研究,提高医疗数据分析效率。通过减少人工干预,降低研究成本,并为临床决策提供更及时、准确的数据支持。未来可扩展到其他疾病的临床报告分析,构建智能化的医疗信息平台。

📄 摘要(原文)

Pulmonary embolism (PE) registries accelerate practice-improving research but depend on resource-intensive manual abstraction of radiology reports. We evaluated whether openly available large-language models (LLMs) can automate concept extraction from computed-tomography PE (CTPE) reports without sacrificing data quality. Four Llama-3 (L3) variants (3.0 8 B, 3.1 8 B, 3.1 70 B, 3.3 70 B) and two reviewer models Phi-4 (P4) 14 B and Gemma-3 27 B (G3) were tested on 250 dual-annotated CTPE reports each from MIMIC-IV and Duke University. Outcomes were accuracy, positive predictive value (PPV), and negative predictive value (NPV) versus a human gold standard across model sizes, temperature settings, and shot counts. Mean accuracy across all concepts increased with scale: 0.83 (L3-0 8 B), 0.91 (L3-1 8 B), and 0.96 for both 70 B variants; P4 14 B achieved 0.98; G3 matched. Accuracy differed by < 0.03 between datasets, underscoring external robustness. In dual-model concordance analysis (L3 70 B + P4 14 B), PE-presence PPV was >= 0.95 and NPV >= 0.98, while location, thrombus burden, right-heart strain, and image-quality artifacts each maintained PPV >= 0.90 and NPV >= 0.95. Fewer than 4% of individual concept annotations were discordant, and complete agreement was observed in more than 75% of reports. G3 performed comparably. LLMs therefore offer a scalable, accurate solution for PE registry abstraction, and a dual-model review workflow can further safeguard data quality with minimal human oversight.