Fine-Tuning MedGemma for Clinical Captioning to Enhance Multimodal RAG over Malaysia CPGs

作者: Lee Qi Zun, Mohamad Zulhilmi Bin Abdul Halim, Goh Man Fye

分类: cs.CL, cs.AI

发布日期: 2025-10-17 (更新: 2025-11-07)

💡 一句话要点

微调MedGemma用于临床图像描述，增强马来西亚CPG上的多模态RAG

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学图像描述 多模态RAG 知识蒸馏 QLoRA MedGemma 临床决策支持 合成数据

📋 核心要点

现有视觉-语言模型在临床图像描述方面缺乏专业性和事实依据，限制了多模态RAG在临床决策支持中的应用。
利用知识蒸馏生成合成数据集，并采用QLoRA方法微调MedGemma模型，使其能够生成高质量的临床图像描述。
实验结果表明，微调后的模型在分类性能和图像描述的忠实性、正确性方面均有显著提升，验证了其作为高质量查询生成器的能力。

📝 摘要（中文）

检索增强生成（RAG）系统对于提供基于马来西亚临床实践指南的事实性指导至关重要。然而，它们在处理基于图像的查询时效果有限，因为通用的视觉-语言模型（VLM）生成的图像描述通常缺乏临床特异性和事实依据。本研究提出并验证了一个框架，用于专门化MedGemma模型，以生成高质量的图像描述，从而作为更优的查询。为了克服数据稀缺问题，我们采用知识蒸馏流程来创建皮肤病学、眼底和胸部X光领域的合成数据集，并使用参数高效的QLoRA方法微调MedGemma。通过双重框架严格评估性能，该框架测量分类准确性，并通过RAGAS框架的新颖应用来评估图像描述的忠实性、相关性和正确性。微调后的模型在分类性能方面表现出显著的改进，而RAGAS评估证实了图像描述在忠实性和正确性方面的显著提高，验证了模型生成可靠、基于事实的描述的能力。这项工作建立了一个强大的流程来专门化医学VLM，并将生成的模型验证为高质量的查询生成器，为增强循证临床决策支持中的多模态RAG系统奠定了基础。

🔬 方法详解

问题定义：论文旨在解决通用视觉-语言模型在临床图像描述方面缺乏临床特异性和事实依据的问题。现有的图像描述生成方法难以满足临床实践指南（CPG）驱动的检索增强生成（RAG）系统的需求，导致基于图像的查询效果不佳。

核心思路：论文的核心思路是利用知识蒸馏技术生成特定领域的合成数据集，然后使用参数高效的微调方法（QLoRA）对MedGemma模型进行专门化训练，使其能够生成高质量、忠实于事实的临床图像描述。通过提升图像描述的质量，从而改善多模态RAG系统的性能。

技术框架：整体框架包括以下几个主要阶段：1) 利用知识蒸馏生成合成数据集，涵盖皮肤病学、眼底和胸部X光等领域。2) 使用QLoRA方法对MedGemma模型进行微调，使其适应临床图像描述任务。3) 使用双重框架评估模型性能，包括分类准确性和基于RAGAS框架的图像描述忠实性、相关性和正确性。

关键创新：论文的关键创新在于：1) 提出了一种基于知识蒸馏的合成数据集生成方法，克服了临床图像数据稀缺的问题。2) 将RAGAS框架应用于评估图像描述的质量，特别是忠实性和正确性，为评估图像描述生成模型的可靠性提供了一种新的方法。3) 通过微调MedGemma模型，显著提升了其在临床图像描述方面的性能，使其能够作为高质量的查询生成器。

关键设计：论文中，知识蒸馏的具体实现细节（如教师模型的选择、蒸馏损失函数的设计等）以及QLoRA微调的具体参数设置（如学习率、量化位数等）是影响模型性能的关键设计。此外，RAGAS框架中使用的具体指标和评估方法也需要根据临床图像描述的特点进行调整。

📊 实验亮点

实验结果表明，经过微调的MedGemma模型在分类性能方面取得了显著提升，同时RAGAS评估结果显示，图像描述的忠实性和正确性也得到了显著提高。这验证了该模型能够生成可靠、基于事实的临床图像描述，并能够作为高质量的查询生成器，为提升多模态RAG系统的性能奠定了基础。具体的性能提升数据在论文中进行了详细展示。

🎯 应用场景

该研究成果可应用于构建基于临床图像的多模态RAG系统，为医生提供循证的临床决策支持。例如，医生可以通过上传医学图像，系统自动生成高质量的图像描述，并基于此检索相关的临床实践指南，从而辅助诊断和治疗。未来，该方法可以推广到其他医学影像领域，并与其他医学知识库相结合，构建更智能化的临床决策支持系统。

📄 摘要（原文）

Retrieval-Augmented Generation systems are essential for providing fact-based guidance from Malaysian Clinical Practice Guidelines. However, their effectiveness with image-based queries is limited, as general Vision-Language Model captions often lack clinical specificity and factual grounding. This study proposes and validates a framework to specialize the MedGemma model for generating high-fidelity captions that serve as superior queries. To overcome data scarcity, we employ a knowledge distillation pipeline to create a synthetic dataset across dermatology, fundus, and chest radiography domains, and fine-tune MedGemma using the parameter-efficient QLoRA method. Performance was rigorously assessed through a dual framework measuring both classification accuracy and, via a novel application of the RAGAS framework, caption faithfulness, relevancy, and correctness. The fine-tuned model demonstrated substantial improvements in classification performance, while RAGAS evaluation confirmed significant gains in caption faithfulness and correctness, validating the models ability to produce reliable, factually grounded descriptions. This work establishes a robust pipeline for specializing medical VLMs and validates the resulting model as a high-quality query generator, laying the groundwork for enhancing multimodal RAG systems in evidence-based clinical decision support.

Fine-Tuning MedGemma for Clinical Captioning to Enhance Multimodal RAG over Malaysia CPGs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理