Multimodal Human-AI Synergy for Medical Imaging Quality Control: A Hybrid Intelligence Framework with Adaptive Dataset Curation and Closed-Loop Evaluation

📄 arXiv: 2503.07032v1 📥 PDF

作者: Zhi Qin, Qianhui Gui, Mouxiao Bian, Rui Wang, Hong Ge, Dandan Yao, Ziying Sun, Yuan Zhao, Yu Zhang, Hui Shi, Dongdong Wang, Chenxin Song, Shenghong Ju, Lihao Liu, Junjun He, Jie Xu, Yuan-Cheng Wang

分类: cs.CL, cs.CV

发布日期: 2025-03-10


💡 一句话要点

构建医学影像质控数据集与评估框架,探索大语言模型在质控中的应用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学影像质控 大语言模型 胸部X光片 CT报告 质量评估

📋 核心要点

  1. 传统医学影像质控依赖人工,效率低且主观性强,难以满足日益增长的影像数据需求。
  2. 利用大语言模型进行医学影像质控,通过构建数据集和评估框架,实现自动化和标准化的质量评估。
  3. 实验表明,Gemini 2.0-Flash和DeepSeek-R1在不同任务上表现出色,验证了LLM在医学影像质控中的潜力。

📝 摘要(中文)

医学影像质量控制(QC)对于准确诊断至关重要,但传统QC方法劳动密集且主观。为了解决这一挑战,本研究建立了一个标准化的医学影像QC数据集和评估框架,系统地评估了大语言模型(LLM)在图像质量评估和报告标准化方面的能力。具体而言,我们首先构建并匿名化了一个包含161张胸部X光片(CXR)和219份CT报告的数据集用于评估。然后,基于召回率、精确率和F1分数,评估了多个LLM,包括Gemini 2.0-Flash、GPT-4o和DeepSeek-R1,以检测技术错误和不一致性。实验结果表明,Gemini 2.0-Flash在CXR任务中实现了90的Macro F1分数,表现出强大的泛化能力,但细粒度性能有限。DeepSeek-R1在CT报告审计方面表现出色,召回率达到62.23%,优于其他模型。然而,其蒸馏变体的性能较差,而InternLM2.5-7B-chat表现出最高的额外发现率,表明其错误检测范围更广但精度较低。这些发现突出了LLM在医学影像QC中的潜力,其中DeepSeek-R1和Gemini 2.0-Flash表现出卓越的性能。

🔬 方法详解

问题定义:论文旨在解决医学影像质量控制中人工审核效率低、主观性强的问题。现有方法难以应对海量医学影像数据,且不同医生之间的评估标准存在差异,导致诊断结果的不一致性。

核心思路:论文的核心思路是利用大语言模型(LLM)的自然语言处理和图像理解能力,自动化地进行医学影像质量评估和报告审核。通过训练和评估LLM,使其能够识别影像中的技术错误和报告中的不一致性,从而提高质控效率和准确性。

技术框架:该研究的技术框架主要包括三个部分:1) 构建并匿名化医学影像数据集,包含胸部X光片和CT报告;2) 选择多个LLM(如Gemini 2.0-Flash、GPT-4o、DeepSeek-R1等)进行评估;3) 使用召回率、精确率和F1分数等指标,评估LLM在检测技术错误和不一致性方面的性能。

关键创新:该研究的关键创新在于将大语言模型应用于医学影像质量控制领域,并构建了标准化的数据集和评估框架。通过系统地评估不同LLM的性能,揭示了LLM在医学影像质控中的潜力,并为未来的研究提供了基准。

关键设计:论文的关键设计包括:1) 数据集的构建和匿名化,确保数据的质量和隐私;2) 评估指标的选择,使用召回率、精确率和F1分数等指标,全面评估LLM的性能;3) LLM的选择,选择了多个具有代表性的LLM进行评估,以比较不同模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Gemini 2.0-Flash在CXR任务中取得了90的Macro F1分数,展现了强大的泛化能力。DeepSeek-R1在CT报告审计中表现出色,召回率达到62.23%,优于其他模型。InternLM2.5-7B-chat表现出最高的额外发现率,表明其错误检测范围更广。

🎯 应用场景

该研究成果可应用于医院、影像中心等医疗机构,实现医学影像质量的自动化控制,提高诊断准确性和效率。未来,该技术可扩展到其他医学影像模态和疾病类型,并与医生协同工作,构建人机协同的智能质控系统,提升医疗服务水平。

📄 摘要(原文)

Medical imaging quality control (QC) is essential for accurate diagnosis, yet traditional QC methods remain labor-intensive and subjective. To address this challenge, in this study, we establish a standardized dataset and evaluation framework for medical imaging QC, systematically assessing large language models (LLMs) in image quality assessment and report standardization. Specifically, we first constructed and anonymized a dataset of 161 chest X-ray (CXR) radiographs and 219 CT reports for evaluation. Then, multiple LLMs, including Gemini 2.0-Flash, GPT-4o, and DeepSeek-R1, were evaluated based on recall, precision, and F1 score to detect technical errors and inconsistencies. Experimental results show that Gemini 2.0-Flash achieved a Macro F1 score of 90 in CXR tasks, demonstrating strong generalization but limited fine-grained performance. DeepSeek-R1 excelled in CT report auditing with a 62.23\% recall rate, outperforming other models. However, its distilled variants performed poorly, while InternLM2.5-7B-chat exhibited the highest additional discovery rate, indicating broader but less precise error detection. These findings highlight the potential of LLMs in medical imaging QC, with DeepSeek-R1 and Gemini 2.0-Flash demonstrating superior performance.