MedPix 2.0: A Comprehensive Multimodal Biomedical Data set for Advanced AI Applications with Retrieval Augmented Generation and Knowledge Graphs

📄 arXiv: 2407.02994v5 📥 PDF

作者: Irene Siragusa, Salvatore Contino, Massimo La Ciura, Rosario Alicata, Roberto Pirrone

分类: cs.DB, cs.AI, cs.LG

发布日期: 2024-07-03 (更新: 2025-07-17)

期刊: Data Sci. Eng. (2025)

DOI: 10.1007/s41019-025-00297-8


💡 一句话要点

构建MedPix 2.0多模态医学数据集,并结合RAG与知识图谱提升医学决策支持系统性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态数据 医学影像 视觉语言模型 检索增强生成 知识图谱 医学决策支持 数据集构建

📋 核心要点

  1. 医学AI应用缺乏高质量多模态数据集,阻碍了视觉语言模型(VLM)的发展,隐私问题加剧了数据获取的难度。
  2. 论文构建了MedPix 2.0数据集,采用半自动化流程提取和清洗数据,并结合检索增强生成(RAG)和知识图谱提升模型性能。
  3. 实验表明,基于MedPix 2.0训练的DR-Minerva模型,结合Llama 3.1 Instruct 8B,能够有效支持医学决策。

📝 摘要(中文)

针对医学人工智能应用中高质量数据集匮乏的问题,尤其是在视觉语言模型(VLM)领域对多模态医学数据的需求,本文提出了MedPix 2.0数据集的构建流程。该数据集基于MedPix,通过半自动化的流程提取视觉和文本数据,并进行人工清洗,最终构建成MongoDB数据库。同时,开发了图形用户界面以方便数据访问,用于VLM的训练和微调。本文还介绍了基于MedPix 2.0训练的DR-Minerva模型,该模型基于检索增强生成(RAG)预测身体部位和扫描模态。此外,提出了DR-Minerva与知识图谱的扩展架构,利用Llama 3.1 Instruct 8B和MedPix 2.0,构建端到端的医学决策支持系统。MedPix 2.0已在GitHub上开源。

🔬 方法详解

问题定义:医学领域缺乏高质量的多模态数据集,特别是包含医学影像和对应临床报告的数据集。现有数据集难以满足视觉语言模型(VLM)训练的需求,并且存在数据噪声和隐私问题,限制了医学人工智能的发展。

核心思路:论文的核心思路是构建一个高质量、易于访问的多模态医学数据集MedPix 2.0,并结合检索增强生成(RAG)和知识图谱来提升VLM在医学决策支持方面的能力。通过半自动化流程和人工清洗,保证数据质量;通过图形界面方便数据访问;通过RAG和知识图谱增强模型的推理能力。

技术框架:整体架构包括数据收集与清洗、数据库构建、图形用户界面开发、DR-Minerva模型训练和知识图谱集成五个主要阶段。首先,从MedPix数据集中提取图像和文本数据,进行半自动化清洗和人工校正,构建MongoDB数据库。然后,开发图形用户界面方便用户访问数据。接着,训练基于RAG的DR-Minerva模型,用于预测身体部位和扫描模态。最后,将DR-Minerva与基于Llama 3.1 Instruct 8B的知识图谱集成,构建端到端的医学决策支持系统。

关键创新:最重要的技术创新点在于将MedPix 2.0数据集与检索增强生成(RAG)和知识图谱相结合,构建了一个端到端的医学决策支持系统。与传统的VLM相比,该方法能够利用外部知识库进行推理,提高模型的准确性和可靠性。此外,半自动化数据清洗流程也提高了数据质量和效率。

关键设计:DR-Minerva模型采用检索增强生成(RAG)框架,利用MedPix 2.0数据集进行训练。知识图谱的构建基于Llama 3.1 Instruct 8B,并利用MedPix 2.0数据集进行微调。具体参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。

📊 实验亮点

论文提出了MedPix 2.0数据集,并基于此训练了DR-Minerva模型,结合Llama 3.1 Instruct 8B构建了医学决策支持系统。虽然论文中没有给出具体的性能数据和对比基线,但该系统展示了利用多模态数据、RAG和知识图谱提升医学决策能力的潜力。MedPix 2.0数据集的开源将为后续研究提供重要资源。

🎯 应用场景

该研究成果可应用于医学影像诊断、辅助决策支持系统、医学教育和培训等领域。MedPix 2.0数据集的开源将促进医学人工智能研究的发展,加速VLM在医学领域的应用。结合RAG和知识图谱的医学决策支持系统,有望提高诊断准确率,辅助医生进行更精准的治疗方案制定。

📄 摘要(原文)

The increasing interest in developing Artificial Intelligence applications in the medical domain, suffers from the lack of high-quality data set, mainly due to privacy-related issues. In addition, the recent increase in Vision Language Models (VLM) leads to the need for multimodal medical data sets, where clinical reports and findings are attached to the corresponding medical scans. This paper illustrates the entire workflow for building the MedPix 2.0 data set. Starting with the well-known multimodal data set MedPix\textsuperscript{\textregistered}, mainly used by physicians, nurses, and healthcare students for Continuing Medical Education purposes, a semi-automatic pipeline was developed to extract visual and textual data followed by a manual curing procedure in which noisy samples were removed, thus creating a MongoDB database. Along with the data set, we developed a Graphical User Interface aimed at navigating efficiently the MongoDB instance and obtaining the raw data that can be easily used for training and/or fine-tuning VLMs. To enforce this point, in this work, we first recall DR-Minerva, a Retrieve Augmented Generation-based VLM model trained upon MedPix 2.0. DR-Minerva predicts the body part and the modality used to scan its input image. We also propose the extension of DR-Minerva with a Knowledge Graph that uses Llama 3.1 Instruct 8B, and leverages MedPix 2.0. The resulting architecture can be queried in a end-to-end manner, as a medical decision support system. MedPix 2.0 is available on GitHub.