MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models

作者: Peng Xia, Kangyu Zhu, Haoran Li, Tianze Wang, Weijia Shi, Sheng Wang, Linjun Zhang, James Zou, Huaxiu Yao

分类: cs.LG, cs.CL, cs.CV

发布日期: 2024-10-16 (更新: 2025-03-03)

备注: ICLR 2025

🔗 代码/项目: GITHUB

💡 一句话要点

MMed-RAG：用于医学视觉语言模型的多功能多模态RAG系统，提升事实准确性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学视觉语言模型 检索增强生成 多模态学习 事实性 领域自适应 医学诊断 报告生成

📋 核心要点

医学视觉语言模型（Med-LVLMs）存在事实幻觉问题，导致诊断错误，而微调方法受限于数据质量和分布偏移。
MMed-RAG通过领域感知检索、自适应上下文选择和基于RAG的偏好微调，提升Med-LVLM的事实准确性和通用性。
实验结果表明，MMed-RAG在多个医学数据集上，使Med-LVLM的事实准确性平均提高了43.8%。

📝 摘要（中文）

人工智能在医疗保健领域，特别是在疾病诊断和治疗计划方面，展现出巨大的潜力。医学大型视觉语言模型（Med-LVLMs）的最新进展为交互式诊断工具开辟了新的可能性。然而，这些模型常常遭受事实幻觉的困扰，可能导致不正确的诊断。微调和检索增强生成（RAG）已成为解决这些问题的方法。但是，高质量数据的数量以及训练数据和部署数据之间的分布差异限制了微调方法的应用。虽然RAG是轻量级且有效的，但现有的基于RAG的方法对于不同的医学领域不够通用，并且可能导致模态之间以及模型与真实情况之间的不一致问题。本文提出了一种通用的多模态RAG系统MMed-RAG，旨在提高Med-LVLM的事实性。我们的方法引入了一种领域感知的检索机制、一种自适应的检索上下文选择方法和一种可证明的基于RAG的偏好微调策略。这些创新使RAG过程足够通用和可靠，从而在引入检索到的上下文时显著提高对齐性。在五个医学数据集（涉及放射学、眼科、病理学）上进行的医学VQA和报告生成实验结果表明，MMed-RAG可以使Med-LVLM的事实准确性平均提高43.8%。我们的数据和代码可在https://github.com/richard-peng-xia/MMed-RAG中找到。

🔬 方法详解

问题定义：Med-LVLMs在医学领域应用中，面临事实性不足的问题，即模型会产生与实际医学知识不符的“幻觉”。现有RAG方法在不同医学领域的泛化能力有限，并且可能导致模态之间以及模型输出与真实情况的不一致。

核心思路：MMed-RAG的核心思路是通过一个通用的多模态RAG系统，利用外部知识来增强Med-LVLM的事实性，同时解决现有RAG方法在医学领域的泛化性和对齐性问题。该方法旨在使RAG过程更加通用和可靠，从而在引入检索到的上下文时显著提高对齐性。

技术框架：MMed-RAG包含三个主要模块：1) 领域感知检索：根据输入查询和图像，从医学知识库中检索相关信息。2) 自适应检索上下文选择：根据检索到的上下文，选择最相关的部分用于生成。3) 基于RAG的偏好微调：使用检索到的上下文和人工标注的偏好数据，对模型进行微调，以提高事实准确性。

关键创新：MMed-RAG的关键创新在于其通用性、自适应性和可证明性。它通过领域感知检索来提高检索的准确性，通过自适应上下文选择来减少噪声，并通过基于RAG的偏好微调来提高模型的对齐性。与现有方法相比，MMed-RAG更通用，可以应用于不同的医学领域，并且更可靠，可以减少事实幻觉。

关键设计：领域感知检索使用医学本体来指导检索过程，自适应上下文选择使用强化学习来选择最相关的上下文，基于RAG的偏好微调使用对比学习来训练模型，使其更符合人类的偏好。具体的损失函数和网络结构细节在论文中有详细描述，包括如何结合领域知识进行检索，如何设计强化学习奖励函数，以及如何构建对比学习的训练数据。

🖼️ 关键图片

📊 实验亮点

MMed-RAG在五个医学数据集（涉及放射学、眼科、病理学）上进行了评估，涵盖医学VQA和报告生成任务。实验结果表明，MMed-RAG可以使Med-LVLM的事实准确性平均提高43.8%。这一显著的提升表明MMed-RAG在提高Med-LVLM的事实性和可靠性方面具有显著优势。

🎯 应用场景

MMed-RAG可应用于多种医学场景，例如辅助诊断、医学报告生成、医学知识问答等。通过提高Med-LVLM的事实准确性，该研究可以帮助医生做出更准确的诊断和治疗决策，提高医疗质量和效率。未来，该技术有望应用于远程医疗、智能健康助手等领域，为患者提供更便捷、更可靠的医疗服务。

📄 摘要（原文）

Artificial Intelligence (AI) has demonstrated significant potential in healthcare, particularly in disease diagnosis and treatment planning. Recent progress in Medical Large Vision-Language Models (Med-LVLMs) has opened up new possibilities for interactive diagnostic tools. However, these models often suffer from factual hallucination, which can lead to incorrect diagnoses. Fine-tuning and retrieval-augmented generation (RAG) have emerged as methods to address these issues. However, the amount of high-quality data and distribution shifts between training data and deployment data limit the application of fine-tuning methods. Although RAG is lightweight and effective, existing RAG-based approaches are not sufficiently general to different medical domains and can potentially cause misalignment issues, both between modalities and between the model and the ground truth. In this paper, we propose a versatile multimodal RAG system, MMed-RAG, designed to enhance the factuality of Med-LVLMs. Our approach introduces a domain-aware retrieval mechanism, an adaptive retrieved contexts selection method, and a provable RAG-based preference fine-tuning strategy. These innovations make the RAG process sufficiently general and reliable, significantly improving alignment when introducing retrieved contexts. Experimental results across five medical datasets (involving radiology, ophthalmology, pathology) on medical VQA and report generation demonstrate that MMed-RAG can achieve an average improvement of 43.8% in the factual accuracy of Med-LVLMs. Our data and code are available in https://github.com/richard-peng-xia/MMed-RAG.

MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理