MedGemma vs GPT-4: Open-Source and Proprietary Zero-shot Medical Disease Classification from Images

📄 arXiv: 2512.23304v1 📥 PDF

作者: Md. Sazzadul Islam Prottasha, Nabil Walid Rafi

分类: cs.CV, cs.AI

发布日期: 2025-12-29

备注: Accepted for publication in the Journal of Machine Learning and Deep Learning (JMLDL). 9 pages, 9 figures, 10 tables


💡 一句话要点

MedGemma在医学图像疾病分类中优于GPT-4,领域微调至关重要

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学图像分类 大语言模型 领域微调 MedGemma GPT-4 低秩适应 多模态学习

📋 核心要点

  1. 多模态大语言模型为医学影像带来变革,但通用模型在临床应用中存在幻觉问题,限制了其可靠性。
  2. 论文提出使用领域特定知识微调的开源模型MedGemma,以提升医学图像疾病分类的准确性和可靠性。
  3. 实验结果表明,微调后的MedGemma在疾病诊断准确率和灵敏度上均优于未微调的GPT-4。

📝 摘要(中文)

本研究对比了两种AI架构在医学图像疾病分类中的表现:开源的MedGemma和专有的多模态大模型GPT-4,用于诊断六种不同的疾病。结果表明,经过低秩适应(LoRA)微调的MedGemma-4b-it模型表现出更强的诊断能力,平均测试准确率达到80.37%,而未调优的GPT-4为69.58%。此外,MedGemma在高风险临床任务(如癌症和肺炎检测)中表现出更高的灵敏度。通过混淆矩阵和分类报告进行的定量分析,提供了模型在所有类别中性能的全面见解。这些结果强调,领域特定的微调对于最小化临床应用中的幻觉至关重要,使MedGemma成为复杂、基于证据的医学推理的强大工具。

🔬 方法详解

问题定义:论文旨在解决医学图像疾病分类问题。现有方法,特别是通用多模态大模型,在医学领域应用时,由于缺乏特定领域的知识,容易产生幻觉,导致诊断错误。因此,需要一种更可靠、更准确的医学图像分类方法。

核心思路:论文的核心思路是利用领域特定的知识对开源大语言模型进行微调,使其更好地适应医学图像的特点和临床需求。通过微调,模型可以学习到更丰富的医学知识,从而减少幻觉,提高诊断准确率。

技术框架:整体框架包括两个主要部分:首先,选择一个开源的大语言模型(MedGemma)。然后,使用医学图像数据集对该模型进行微调。微调采用低秩适应(LoRA)方法,以减少计算成本和内存需求。最后,使用测试数据集评估微调后模型的性能。

关键创新:论文的关键创新在于证明了领域特定微调对于提高大语言模型在医学图像分类中的性能至关重要。通过对开源模型MedGemma进行微调,使其在诊断准确率和灵敏度上均超过了未微调的GPT-4。

关键设计:论文使用了MedGemma-4b-it模型,并采用LoRA进行微调。LoRA通过引入低秩矩阵来更新模型参数,从而减少了需要训练的参数数量。实验中,使用了包含六种不同疾病的医学图像数据集。评估指标包括准确率、灵敏度、混淆矩阵和分类报告。

📊 实验亮点

MedGemma-4b-it模型经过LoRA微调后,在六种疾病的平均测试准确率达到80.37%,显著高于未调优的GPT-4的69.58%。尤其在癌症和肺炎等高风险疾病的检测中,MedGemma表现出更高的灵敏度,表明领域微调对于提升临床任务中的模型性能至关重要。

🎯 应用场景

该研究成果可应用于医学影像辅助诊断系统,帮助医生更准确、更快速地诊断疾病,尤其是在资源有限的地区。未来,可以将该方法扩展到更多疾病的诊断,并与其他医学数据(如电子病历)相结合,实现更全面的临床决策支持。此外,开源的MedGemma模型可以促进医学人工智能研究的进一步发展。

📄 摘要(原文)

Multimodal Large Language Models (LLMs) introduce an emerging paradigm for medical imaging by interpreting scans through the lens of extensive clinical knowledge, offering a transformative approach to disease classification. This study presents a critical comparison between two fundamentally different AI architectures: the specialized open-source agent MedGemma and the proprietary large multimodal model GPT-4 for diagnosing six different diseases. The MedGemma-4b-it model, fine-tuned using Low-Rank Adaptation (LoRA), demonstrated superior diagnostic capability by achieving a mean test accuracy of 80.37% compared to 69.58% for the untuned GPT-4. Furthermore, MedGemma exhibited notably higher sensitivity in high-stakes clinical tasks, such as cancer and pneumonia detection. Quantitative analysis via confusion matrices and classification reports provides comprehensive insights into model performance across all categories. These results emphasize that domain-specific fine-tuning is essential for minimizing hallucinations in clinical implementation, positioning MedGemma as a sophisticated tool for complex, evidence-based medical reasoning.