Large Language Model-Based Uncertainty-Adjusted Label Extraction for Artificial Intelligence Model Development in Upper Extremity Radiography

📄 arXiv: 2510.05664v1 📥 PDF

作者: Hanna Kreutzer, Anne-Sophie Caselitz, Thomas Dratsch, Daniel Pinto dos Santos, Christiane Kuhl, Daniel Truhn, Sven Nebelung

分类: cs.AI

发布日期: 2025-10-07

备注: 28 pages, 6 figures


💡 一句话要点

GPT-4o提取放射报告标签,用于上肢X光片多标签图像分类模型训练

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 放射影像 多标签分类 标签提取 不确定性建模

📋 核心要点

  1. 现有上肢放射影像诊断依赖人工标注,耗时且易出错,限制了AI辅助诊断模型的开发。
  2. 利用GPT-4o从放射报告中自动提取结构化标签,并考虑标签的不确定性,用于训练多标签分类模型。
  3. 实验表明,GPT-4o提取标签准确率高,训练的模型性能与人工标注相当,且不确定标签对模型影响不大。

📝 摘要(中文)

本研究旨在评估GPT-4o从自由文本放射报告中提取诊断标签(包括不确定性)的能力,并测试这些标签如何影响肌肉骨骼X光片的多标签图像分类。研究回顾性地纳入了锁骨(n=1,170)、肘部(n=3,755)和拇指(n=1,978)的X光片序列。匿名化后,GPT-4o通过指示影像学发现为存在(“真”)、不存在(“假”)或“不确定”来填写结构化模板。为了评估标签不确定性的影响,训练和验证集中“不确定”的标签被自动重新分配为“真”(包含)或“假”(排除)。标签-图像对用于使用ResNet50进行多标签分类。在内部(锁骨:n=233,肘部:n=745,拇指:n=393)和外部测试集(每个n=300)上手动验证标签提取的准确性。使用宏平均受试者工作特征曲线(ROC)下面积(AUC)、精确率召回率曲线、灵敏度、特异性和准确性评估性能。AUC使用DeLong检验进行比较。结果表明,自动提取在测试集中98.6%(60,618/61,488)的标签中是正确的。基于标签的模型训练产生了具有竞争力的性能,通过包含性(例如,肘部:AUC=0.80 [范围,0.62-0.87])和排除性模型(肘部:AUC=0.80 [范围,0.61-0.88])的宏平均AUC值来衡量。模型在外部数据集上表现良好(肘部[包含性]:AUC=0.79 [范围,0.61-0.87];肘部[排除性]:AUC=0.79 [范围,0.63-0.89])。在标签策略或数据集之间没有观察到显着差异(p>=0.15)。结论是,GPT-4o从放射报告中提取标签,以高精度训练具有竞争力的多标签分类模型。放射报告中检测到的不确定性不影响这些模型的性能。

🔬 方法详解

问题定义:本研究旨在解决上肢放射影像多标签分类模型训练中,标注数据获取困难的问题。现有方法依赖人工标注,成本高昂且耗时,限制了模型开发和应用。此外,放射报告中可能存在诊断的不确定性,如何处理这些不确定性也是一个挑战。

核心思路:利用大型语言模型GPT-4o强大的自然语言理解能力,从放射报告中自动提取结构化标签,从而替代人工标注。同时,研究考虑了报告中可能存在的“不确定”标签,并探索了不同的处理策略,以评估其对模型性能的影响。核心在于将非结构化的文本报告转化为可用于模型训练的结构化标签数据。

技术框架:整体流程包括:1) 数据收集:收集锁骨、肘部和拇指的X光片和对应的放射报告。2) 数据预处理:对放射报告进行匿名化处理。3) 标签提取:使用GPT-4o从报告中提取标签,包括“真”、“假”和“不确定”三种状态。4) 不确定性处理:将“不确定”标签分别处理为“真”(inclusive)和“假”(exclusive)两种情况。5) 模型训练:使用ResNet50作为骨干网络,基于提取的标签和对应的图像进行多标签分类模型训练。6) 模型评估:在内部和外部测试集上评估模型性能,使用AUC、精确率召回率曲线等指标。

关键创新:主要创新在于利用大型语言模型GPT-4o自动提取放射报告中的标签,从而避免了繁琐的人工标注过程。此外,研究还关注了放射报告中固有的不确定性,并探索了不同的处理策略,为实际应用提供了参考。

关键设计:研究使用了ResNet50作为图像分类的骨干网络,并采用了标准的多标签分类损失函数。关键在于GPT-4o的prompt设计,需要清晰地指导模型如何从放射报告中提取标签,并处理不确定性。此外,对于“不确定”标签的处理策略,研究分别尝试了将其视为“真”和“假”两种情况,以评估其对模型性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GPT-4o能够以98.6%的准确率从放射报告中提取标签。基于这些标签训练的多标签分类模型,在内部和外部测试集上均取得了具有竞争力的性能(AUC约为0.80)。研究还发现,对“不确定”标签的不同处理策略对模型性能没有显著影响(p>=0.15)。

🎯 应用场景

该研究成果可应用于构建自动化的放射影像诊断系统,辅助医生进行快速、准确的诊断。通过减少对人工标注的依赖,降低模型开发成本,加速AI技术在医疗领域的普及。未来可扩展到其他影像模态和疾病类型,提升医疗诊断效率和准确性。

📄 摘要(原文)

Objectives: To evaluate GPT-4o's ability to extract diagnostic labels (with uncertainty) from free-text radiology reports and to test how these labels affect multi-label image classification of musculoskeletal radiographs. Methods: This retrospective study included radiography series of the clavicle (n=1,170), elbow (n=3,755), and thumb (n=1,978). After anonymization, GPT-4o filled out structured templates by indicating imaging findings as present ("true"), absent ("false"), or "uncertain." To assess the impact of label uncertainty, "uncertain" labels of the training and validation sets were automatically reassigned to "true" (inclusive) or "false" (exclusive). Label-image-pairs were used for multi-label classification using ResNet50. Label extraction accuracy was manually verified on internal (clavicle: n=233, elbow: n=745, thumb: n=393) and external test sets (n=300 for each). Performance was assessed using macro-averaged receiver operating characteristic (ROC) area under the curve (AUC), precision recall curves, sensitivity, specificity, and accuracy. AUCs were compared with the DeLong test. Results: Automatic extraction was correct in 98.6% (60,618 of 61,488) of labels in the test sets. Across anatomic regions, label-based model training yielded competitive performance measured by macro-averaged AUC values for inclusive (e.g., elbow: AUC=0.80 [range, 0.62-0.87]) and exclusive models (elbow: AUC=0.80 [range, 0.61-0.88]). Models generalized well on external datasets (elbow [inclusive]: AUC=0.79 [range, 0.61-0.87]; elbow [exclusive]: AUC=0.79 [range, 0.63-0.89]). No significant differences were observed across labeling strategies or datasets (p>=0.15). Conclusion: GPT-4o extracted labels from radiologic reports to train competitive multi-label classification models with high accuracy. Detected uncertainty in the radiologic reports did not influence the performance of these models.