Evaluating Large Language Models for Automated Clinical Abstraction in Pulmonary Embolism Registries: Performance Across Model Sizes, Versions, and Parameters

作者: Mahmoud Alwakeel, Emory Buck, Jonathan G. Martin, Imran Aslam, Sudarshan Rajagopal, Jian Pei, Mihai V. Podgoreanu, Christopher J. Lindsell, An-Kwok Ian Wong

分类: cs.CL

发布日期: 2025-03-26 (更新: 2025-08-11)

💡 一句话要点

利用大型语言模型自动化肺栓塞登记研究中的临床信息抽取，实现数据质量保障。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 临床信息抽取 肺栓塞 自动化 数据质量 双模型审查 自然语言处理

📋 核心要点

肺栓塞登记研究依赖于人工信息抽取，耗时耗力，存在自动化需求。
利用大型语言模型自动抽取CTPE报告中的关键信息，并设计双模型审查流程。
实验结果表明，大型语言模型能够高效准确地完成信息抽取任务，双模型审查进一步提升数据质量。

📝 摘要（中文）

肺栓塞(PE)登记研究加速了实践改进研究，但依赖于耗费资源的人工放射报告信息抽取。本研究评估了开放可用的大型语言模型(LLM)是否可以在不牺牲数据质量的前提下，自动从计算机断层扫描肺栓塞(CTPE)报告中提取概念。在来自MIMIC-IV和杜克大学的各250份双重标注CTPE报告上测试了四种Llama-3 (L3)变体(3.0 8 B, 3.1 8 B, 3.1 70 B, 3.3 70 B)和两种reviewer模型Phi-4 (P4) 14 B和Gemma-3 27 B (G3)。结果包括准确率、阳性预测值(PPV)和阴性预测值(NPV)，与人类金标准相比，涵盖了模型大小、温度设置和few-shot数量。所有概念的平均准确率随规模增加而提高：0.83 (L3-0 8 B)，0.91 (L3-1 8 B)，以及两种70 B变体的0.96；P4 14 B达到0.98；G3与之相当。数据集之间的准确率差异小于0.03，突出了外部鲁棒性。在双模型一致性分析(L3 70 B + P4 14 B)中，PE存在的PPV >= 0.95，NPV >= 0.98，而位置、血栓负荷、右心室劳损和图像质量伪影均保持PPV >= 0.90和NPV >= 0.95。少于4%的个体概念标注存在不一致，超过75%的报告观察到完全一致。G3表现相当。因此，LLM为PE登记研究信息抽取提供了一种可扩展、准确的解决方案，双模型审查工作流程可以进一步保障数据质量，并最大限度地减少人工监督。

🔬 方法详解

问题定义：本研究旨在解决肺栓塞登记研究中，人工从CTPE报告中抽取临床信息耗时耗力的问题。现有方法依赖人工，效率低且成本高，难以大规模应用。因此，需要一种自动化的信息抽取方法，以提高效率并降低成本。

核心思路：本研究的核心思路是利用大型语言模型（LLM）的强大自然语言理解和生成能力，直接从CTPE报告的文本中提取关键临床概念。通过训练和评估不同规模和架构的LLM，找到在准确性和效率之间取得平衡的模型。此外，引入双模型审查流程，进一步提高数据质量。

技术框架：整体流程包括以下几个步骤：1) 数据准备：收集并标注CTPE报告，构建训练和测试数据集。2) 模型选择：选择多种开源LLM，包括Llama-3、Phi-4和Gemma-3等。3) 模型训练与评估：使用标注数据对LLM进行微调，并评估其在信息抽取任务上的性能，指标包括准确率、PPV和NPV。4) 双模型审查：使用两个不同的LLM独立抽取信息，并比较结果，对于不一致的结果进行人工审查。

关键创新：本研究的关键创新在于：1) 探索了多种开源LLM在临床信息抽取任务中的性能，并比较了不同模型规模和架构的影响。2) 提出了双模型审查流程，有效提高了数据质量，并降低了人工审查的需求。3) 验证了LLM在不同数据集上的泛化能力，表明其具有良好的外部鲁棒性。

关键设计：研究中使用了不同规模的Llama-3模型（8B和70B），以及Phi-4 (14B) 和 Gemma-3 (27B) 模型。实验中调整了温度参数，并采用了few-shot学习策略。评估指标包括准确率、阳性预测值（PPV）和阴性预测值（NPV）。双模型审查流程中，对于不一致的结果，由人工专家进行裁决。

📊 实验亮点

实验结果表明，大型语言模型在肺栓塞临床信息抽取任务中表现出色。Llama-3 70B、Phi-4 14B和Gemma-3 27B模型均达到了较高的准确率（>0.96）。双模型一致性分析显示，PE存在的PPV >= 0.95，NPV >= 0.98，其他关键概念的PPV和NPV也均高于0.90和0.95。数据集之间的准确率差异小于0.03，验证了模型的外部鲁棒性。

🎯 应用场景

该研究成果可应用于自动化临床数据抽取，加速肺栓塞等疾病的登记研究，提高医疗数据分析效率。通过减少人工干预，降低研究成本，并为临床决策提供更及时、准确的数据支持。未来可扩展到其他疾病的临床报告分析，构建智能化的医疗信息平台。

📄 摘要（原文）

Pulmonary embolism (PE) registries accelerate practice-improving research but depend on resource-intensive manual abstraction of radiology reports. We evaluated whether openly available large-language models (LLMs) can automate concept extraction from computed-tomography PE (CTPE) reports without sacrificing data quality. Four Llama-3 (L3) variants (3.0 8 B, 3.1 8 B, 3.1 70 B, 3.3 70 B) and two reviewer models Phi-4 (P4) 14 B and Gemma-3 27 B (G3) were tested on 250 dual-annotated CTPE reports each from MIMIC-IV and Duke University. Outcomes were accuracy, positive predictive value (PPV), and negative predictive value (NPV) versus a human gold standard across model sizes, temperature settings, and shot counts. Mean accuracy across all concepts increased with scale: 0.83 (L3-0 8 B), 0.91 (L3-1 8 B), and 0.96 for both 70 B variants; P4 14 B achieved 0.98; G3 matched. Accuracy differed by < 0.03 between datasets, underscoring external robustness. In dual-model concordance analysis (L3 70 B + P4 14 B), PE-presence PPV was >= 0.95 and NPV >= 0.98, while location, thrombus burden, right-heart strain, and image-quality artifacts each maintained PPV >= 0.90 and NPV >= 0.95. Fewer than 4% of individual concept annotations were discordant, and complete agreement was observed in more than 75% of reports. G3 performed comparably. LLMs therefore offer a scalable, accurate solution for PE registry abstraction, and a dual-model review workflow can further safeguard data quality with minimal human oversight.

Evaluating Large Language Models for Automated Clinical Abstraction in Pulmonary Embolism Registries: Performance Across Model Sizes, Versions, and Parameters

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理