Advancing Multimodal Medical Capabilities of Gemini

作者: Lin Yang, Shawn Xu, Andrew Sellergren, Timo Kohlberger, Yuchen Zhou, Ira Ktena, Atilla Kiraly, Faruk Ahmed, Farhad Hormozdiari, Tiam Jaroensri, Eric Wang, Ellery Wulczyn, Fayaz Jamil, Theo Guidroz, Chuck Lau, Siyuan Qiao, Yun Liu, Akshay Goel, Kendall Park, Arnav Agharwal, Nick George, Yang Wang, Ryutaro Tanno, David G. T. Barrett, Wei-Hung Weng, S. Sara Mahdavi, Khaled Saab, Tao Tu, Sreenivasa Raju Kalidindi, Mozziyar Etemadi, Jorge Cuadros, Gregory Sorensen, Yossi Matias, Katherine Chou, Greg Corrado, Joelle Barral, Shravya Shetty, David Fleet, S. M. Ali Eslami, Daniel Tse, Shruthi Prabhakara, Cory McLean, Dave Steiner, Rory Pilgrim, Christopher Kelly, Shekoofeh Azizi, Daniel Golden

分类: cs.CV, cs.AI, cs.CL, cs.LG

发布日期: 2024-05-06

💡 一句话要点

Med-Gemini：基于Gemini的多模态医学大模型，提升多种医学任务性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态医学 大型语言模型 医学影像 报告生成 疾病风险预测 迁移学习 Gemini 医学人工智能

📋 核心要点

通用多模态模型缺乏医学图像和基因组等专业数据的理解能力，限制了其在临床任务中的应用。
Med-Gemini系列模型通过在医学数据上微调Gemini，继承了Gemini的核心能力，并针对医学应用进行了优化。
实验结果表明，Med-Gemini在胸部X光报告生成、视觉问答、疾病风险预测等多个医学任务上取得了显著的性能提升。

📝 摘要（中文）

本文介绍了Med-Gemini系列模型，该系列模型基于Gemini的多模态能力，并通过在2D和3D放射学、组织病理学、眼科学、皮肤病学和基因组数据上进行微调，针对医学应用进行了优化。Med-Gemini-2D在基于AI的胸部X光（CXR）报告生成方面树立了新标准，在两个独立数据集上的专家评估中，绝对优势分别超过了之前的最佳结果1%和12%，其中57%和96%的AI正常病例报告，以及43%和65%的异常病例报告，被评估为“等同或优于”原始放射科医生的报告。Med-Gemini-3D首次展示了基于大型多模态模型的3D计算机断层扫描（CT）体积报告生成，其中53%的AI报告被认为是临床可接受的，但仍需进一步研究以满足专家放射科医生的报告质量。除了报告生成之外，Med-Gemini-2D在CXR视觉问答（VQA）中超越了之前的最佳性能，并在CXR分类和放射学VQA中表现良好，在20项任务中的17项上超过了SoTA或基线。在组织病理学、眼科学和皮肤病学图像分类中，Med-Gemini-2D在20项任务中的18项上超过了基线，并接近特定任务模型的性能。在影像之外，Med-Gemini-Polygenic优于标准的基于线性多基因风险评分的方法，用于疾病风险预测，并推广到它从未训练过的基因相关疾病。虽然在安全攸关的医学领域需要进一步的开发和评估，但我们的结果突出了Med-Gemini在广泛的医学任务中的潜力。

🔬 方法详解

问题定义：论文旨在解决通用多模态模型在医学领域应用受限的问题。现有方法，如直接使用通用模型，无法有效处理医学图像和基因组等专业数据，导致在临床任务中表现不佳。此外，针对特定医学任务的模型通常缺乏泛化能力。

核心思路：论文的核心思路是利用大型多模态模型Gemini的强大能力，通过在大量的医学数据上进行微调，使模型具备医学领域的专业知识和推理能力。这种方法旨在克服通用模型在医学领域的不足，并提高模型在各种医学任务中的性能和泛化能力。

技术框架：Med-Gemini的技术框架主要包括以下几个阶段：1) 基于Gemini模型构建基础模型；2) 收集并整理包含2D和3D放射学、组织病理学、眼科学、皮肤病学和基因组数据的大规模医学数据集；3) 使用医学数据集对基础模型进行微调，得到Med-Gemini系列模型；4) 在各种医学任务上评估Med-Gemini系列模型的性能，并与现有方法进行比较。

关键创新：论文的关键创新在于：1) 首次将大型多模态模型应用于3D计算机断层扫描（CT）体积报告生成；2) 提出了Med-Gemini-Polygenic模型，该模型优于标准的基于线性多基因风险评分的方法，用于疾病风险预测，并推广到它从未训练过的基因相关疾病；3) 在多个医学任务上取得了显著的性能提升，证明了大型多模态模型在医学领域的潜力。

关键设计：论文的关键设计包括：1) 使用大规模医学数据集进行微调，确保模型能够学习到医学领域的专业知识；2) 针对不同的医学任务，设计了不同的模型结构和训练策略；3) 采用专家评估的方式，对生成的报告进行质量评估，确保报告的临床可接受性。

🖼️ 关键图片

📊 实验亮点

Med-Gemini-2D在胸部X光（CXR）报告生成方面，在两个独立数据集上的专家评估中，绝对优势分别超过了之前的最佳结果1%和12%。Med-Gemini-3D首次展示了基于大型多模态模型的3D计算机断层扫描（CT）体积报告生成，其中53%的AI报告被认为是临床可接受的。Med-Gemini-Polygenic优于标准的基于线性多基因风险评分的方法，用于疾病风险预测。

🎯 应用场景

Med-Gemini系列模型具有广泛的应用前景，包括辅助诊断、疾病风险预测、医学报告生成等。该研究成果有望提高医疗效率和诊断准确性，为患者提供更好的医疗服务。未来，Med-Gemini可以应用于远程医疗、个性化医疗等领域，推动医疗行业的智能化发展。

📄 摘要（原文）

Many clinical tasks require an understanding of specialized data, such as medical images and genomics, which is not typically found in general-purpose large multimodal models. Building upon Gemini's multimodal models, we develop several models within the new Med-Gemini family that inherit core capabilities of Gemini and are optimized for medical use via fine-tuning with 2D and 3D radiology, histopathology, ophthalmology, dermatology and genomic data. Med-Gemini-2D sets a new standard for AI-based chest X-ray (CXR) report generation based on expert evaluation, exceeding previous best results across two separate datasets by an absolute margin of 1% and 12%, where 57% and 96% of AI reports on normal cases, and 43% and 65% on abnormal cases, are evaluated as "equivalent or better" than the original radiologists' reports. We demonstrate the first ever large multimodal model-based report generation for 3D computed tomography (CT) volumes using Med-Gemini-3D, with 53% of AI reports considered clinically acceptable, although additional research is needed to meet expert radiologist reporting quality. Beyond report generation, Med-Gemini-2D surpasses the previous best performance in CXR visual question answering (VQA) and performs well in CXR classification and radiology VQA, exceeding SoTA or baselines on 17 of 20 tasks. In histopathology, ophthalmology, and dermatology image classification, Med-Gemini-2D surpasses baselines across 18 out of 20 tasks and approaches task-specific model performance. Beyond imaging, Med-Gemini-Polygenic outperforms the standard linear polygenic risk score-based approach for disease risk prediction and generalizes to genetically correlated diseases for which it has never been trained. Although further development and evaluation are necessary in the safety-critical medical domain, our results highlight the potential of Med-Gemini across a wide range of medical tasks.

Advancing Multimodal Medical Capabilities of Gemini

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理