MedGemma Technical Report

📄 arXiv: 2507.05201v3 📥 PDF

作者: Andrew Sellergren, Sahar Kazemzadeh, Tiam Jaroensri, Atilla Kiraly, Madeleine Traverse, Timo Kohlberger, Shawn Xu, Fayaz Jamil, Cían Hughes, Charles Lau, Justin Chen, Fereshteh Mahvar, Liron Yatziv, Tiffany Chen, Bram Sterling, Stefanie Anna Baby, Susanna Maria Baby, Jeremy Lai, Samuel Schmidgall, Lu Yang, Kejia Chen, Per Bjornsson, Shashir Reddy, Ryan Brush, Kenneth Philbrick, Mercy Asiedu, Ines Mezerreg, Howard Hu, Howard Yang, Richa Tiwari, Sunny Jansen, Preeti Singh, Yun Liu, Shekoofeh Azizi, Aishwarya Kamath, Johan Ferret, Shreya Pathak, Nino Vieillard, Ramona Merhej, Sarah Perrin, Tatiana Matejovicova, Alexandre Ramé, Morgane Riviere, Louis Rouillard, Thomas Mesnard, Geoffrey Cideron, Jean-bastien Grill, Sabela Ramos, Edouard Yvinec, Michelle Casbon, Elena Buchatskaya, Jean-Baptiste Alayrac, Dmitry Lepikhin, Vlad Feinberg, Sebastian Borgeaud, Alek Andreev, Cassidy Hardin, Robert Dadashi, Léonard Hussenot, Armand Joulin, Olivier Bachem, Yossi Matias, Katherine Chou, Avinatan Hassidim, Kavi Goel, Clement Farabet, Joelle Barral, Tris Warkentin, Jonathon Shlens, David Fleet, Victor Cotruta, Omar Sanseviero, Gus Martins, Phoebe Kirk, Anand Rao, Shravya Shetty, David F. Steiner, Can Kirmizibayrak, Rory Pilgrim, Daniel Golden, Lin Yang

分类: cs.AI, cs.CL, cs.CV

发布日期: 2025-07-07 (更新: 2025-07-12)


💡 一句话要点

MedGemma:基于Gemma的医学视觉-语言基础模型,提升医疗AI任务性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学视觉-语言模型 Gemma MedSigLIP 多模态学习 医疗AI 预训练模型 医学图像分析

📋 核心要点

  1. 医疗AI面临数据多样性、任务复杂性和隐私保护的挑战,需要更强大的基础模型减少对特定任务数据的依赖。
  2. MedGemma通过在Gemma模型基础上进行医学领域的预训练和微调,构建了强大的医学视觉-语言基础模型。
  3. 实验表明,MedGemma在多项医学任务上超越了同等规模模型,并接近专用模型性能,同时保持了通用能力。

📝 摘要(中文)

本文介绍了MedGemma,这是一系列基于Gemma 3 4B和27B的医学视觉-语言基础模型。MedGemma在图像和文本上展示了先进的医学理解和推理能力,显著超越了同等规模的生成模型,并接近了特定任务模型的性能,同时保持了Gemma 3基础模型的通用能力。对于分布外任务,MedGemma在医学多模态问答方面取得了2.6-10%的提升,在胸部X光片发现分类方面取得了15.5-18.1%的提升,在Agentic评估方面取得了10.8%的提升(与基础模型相比)。微调MedGemma进一步提高了子领域的性能,将电子健康记录信息检索中的错误减少了50%,并在气胸分类和组织病理学补丁分类方面达到了与现有专业最先进方法相当的性能。此外,本文还介绍了MedSigLIP,这是一种从SigLIP派生的医学调整视觉编码器。MedSigLIP为MedGemma的视觉理解能力提供支持,并且作为编码器,其性能与专门的医学图像编码器相当或更好。总而言之,MedGemma系列为医学图像和文本能力提供了强大的基础,具有显著加速医学研究和下游应用开发的潜力。MedGemma系列,包括教程和模型权重,可在https://goo.gle/medgemma找到。

🔬 方法详解

问题定义:现有医疗AI模型通常需要大量特定任务的数据进行训练,泛化能力有限。此外,在处理医学图像和文本等多模态数据时,模型需要具备专业的医学知识和推理能力。因此,如何构建一个能够理解医学图像和文本,并且具有良好泛化能力的基础模型是一个关键问题。

核心思路:MedGemma的核心思路是利用大规模预训练语言模型Gemma的通用能力,并通过在医学领域的数据上进行进一步的预训练和微调,使其具备专业的医学知识和推理能力。通过这种方式,MedGemma可以在各种医学任务上取得良好的性能,并且减少对特定任务数据的依赖。

技术框架:MedGemma的技术框架主要包括以下几个部分:1) 基于Gemma 3 4B和27B构建基础模型;2) 利用医学图像和文本数据进行预训练,使模型具备医学知识;3) 在特定医学任务上进行微调,进一步提升模型性能;4) 引入MedSigLIP作为视觉编码器,提升模型对医学图像的理解能力。

关键创新:MedGemma的关键创新在于:1) 将大规模预训练语言模型Gemma应用于医学领域,充分利用了Gemma的通用能力;2) 提出了MedSigLIP,一种医学调整的视觉编码器,能够更好地理解医学图像;3) 通过预训练和微调相结合的方式,使模型具备了专业的医学知识和推理能力。

关键设计:MedGemma的关键设计包括:1) 选择Gemma 3 4B和27B作为基础模型,平衡了模型规模和性能;2) 使用大规模医学图像和文本数据进行预训练,包括医学文献、电子健康记录和医学图像报告等;3) 在特定医学任务上进行微调时,采用了合适的损失函数和优化器,以提升模型性能;4) MedSigLIP的训练采用了与SigLIP类似的对比学习方法,使其能够更好地提取医学图像的特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MedGemma在多项医学任务上取得了显著的性能提升。例如,在医学多模态问答方面,MedGemma比基础模型提升了2.6-10%;在胸部X光片发现分类方面,提升了15.5-18.1%;在电子健康记录信息检索中,错误减少了50%。此外,MedGemma在气胸分类和组织病理学补丁分类方面达到了与现有专业最先进方法相当的性能。

🎯 应用场景

MedGemma具有广泛的应用前景,包括辅助诊断、医学图像报告生成、电子健康记录信息检索、药物研发等。它可以帮助医生更准确地诊断疾病,提高医疗效率,并加速医学研究的进展。未来,MedGemma有望成为医疗AI领域的重要基础设施。

📄 摘要(原文)

Artificial intelligence (AI) has significant potential in healthcare applications, but its training and deployment faces challenges due to healthcare's diverse data, complex tasks, and the need to preserve privacy. Foundation models that perform well on medical tasks and require less task-specific tuning data are critical to accelerate the development of healthcare AI applications. We introduce MedGemma, a collection of medical vision-language foundation models based on Gemma 3 4B and 27B. MedGemma demonstrates advanced medical understanding and reasoning on images and text, significantly exceeding the performance of similar-sized generative models and approaching the performance of task-specific models, while maintaining the general capabilities of the Gemma 3 base models. For out-of-distribution tasks, MedGemma achieves 2.6-10% improvement on medical multimodal question answering, 15.5-18.1% improvement on chest X-ray finding classification, and 10.8% improvement on agentic evaluations compared to the base models. Fine-tuning MedGemma further improves performance in subdomains, reducing errors in electronic health record information retrieval by 50% and reaching comparable performance to existing specialized state-of-the-art methods for pneumothorax classification and histopathology patch classification. We additionally introduce MedSigLIP, a medically-tuned vision encoder derived from SigLIP. MedSigLIP powers the visual understanding capabilities of MedGemma and as an encoder achieves comparable or better performance than specialized medical image encoders. Taken together, the MedGemma collection provides a strong foundation of medical image and text capabilities, with potential to significantly accelerate medical research and development of downstream applications. The MedGemma collection, including tutorials and model weights, can be found at https://goo.gle/medgemma.