MIRAGE: Retrieval and Generation of Multimodal Images and Texts for Medical Education

📄 arXiv: 2605.04772v1 📥 PDF

作者: Miguel Diaz Benito, Cecilia Diana Albelda, Alvaro Garcia Martin, Jesus Bescos Cano, Marcos Escudero-Vinolo, Juan C. SanMiguel

分类: cs.CV

发布日期: 2026-05-06

备注: Accepted at the Workshop on Applications of Medical AI (AMAI 2025), in conjunction with MICCAI 2025

期刊: Workshop on Applications of Medical AI (AMAI 2025), MICCAI 2025, pp 103-112, 2025

DOI: 10.1007/978-3-032-09569-5_11


💡 一句话要点

提出MIRAGE以解决医学教育中图像检索与生成问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学教育 多模态检索 图像生成 医学图像 交互学习 预训练模型

📋 核心要点

  1. 现有医学图谱因体积庞大和缺乏互动性,导致在医学教育中的应用受限。
  2. MIRAGE通过将医学文本和图像映射到共享潜在空间,提供了一个多模态的检索与生成系统。
  3. 该系统的设计使得用户能够轻松检索和生成医学图像,且完全依赖公开可用的预训练模型,确保可重复性和可访问性。

📝 摘要(中文)

获取多样化、标注良好的医学图像及互动学习工具对医学及相关领域的从业者培训至关重要。现有医学图谱因体积庞大和缺乏互动性而不够实用,而在线图像搜索则可能提供错误标记或不完整的材料。为此,本文提出MIRAGE,一个多模态医学文本与图像检索及生成系统,允许用户从可信来源查找和生成临床相关图像,通过将文本和图像映射到共享潜在空间,实现语义上有意义的查询。该系统基于经过微调的医学版本CLIP(MedICaT-ROCO),并支持用户通过提示检索图像、生成合成图像及获取丰富描述。MIRAGE旨在为全球医学学生提供一个免费、透明且易于使用的教学工具。

🔬 方法详解

问题定义:本文旨在解决医学教育中对多样化、互动性强的医学图像和文本的获取困难,现有方法如医学图谱体积庞大且缺乏互动性,在线搜索则可能导致错误标记或不完整信息。

核心思路:MIRAGE通过将医学文本和图像映射到共享潜在空间,允许用户进行语义上有意义的查询,进而检索和生成相关的医学图像。

技术框架:系统主要由三个模块组成:1) 基于MedICaT-ROCO的图像和文本检索模块;2) 生成合成医学图像的扩散模型Prompt2MedImage;3) 提供丰富描述的语言模型Dolly-v2-3b。用户可以通过提示进行检索和生成。

关键创新:MIRAGE的创新在于其完全依赖于公开可用的预训练模型,确保了系统的可重复性和可访问性,且支持双重搜索选项以便于视觉比较不同医学条件。

关键设计:系统的设计考虑了用户友好性,界面简洁易用,特别适合没有编程技能的医学学生。模型的训练使用了来自PubMed Central的ROCO数据集,确保了数据的可靠性和丰富性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MIRAGE系统在医学图像检索和生成方面表现出色,用户能够通过简单的提示获取相关图像,并生成合成图像。系统的设计确保了高效的交互体验,且完全基于公开模型,提升了可访问性和可重复性。

🎯 应用场景

MIRAGE的潜在应用领域包括医学教育、临床培训和研究。该系统为医学学生提供了一个互动学习平台,帮助他们提高诊断技能和对解剖结构的理解。未来,该系统有望在全球范围内推广,促进医学教育的普及与发展。

📄 摘要(原文)

Access to diverse, well-annotated medical images with interactive learning tools is fundamental for training practitioners in medicine and related fields to improve their diagnostic skills and understanding of anatomical structures. While medical atlases are valuable, they are often impractical due to their size and lack of interactivity, whereas online image search may provide mislabeled or incomplete material. To address this, we propose MIRAGE, a multimodal medical text and image retrieval and generation system that allows users to find and generate clinically relevant images from trustworthy sources by mapping both text and images to a shared latent space, enabling semantically meaningful queries. The system is based on a fine-tuned medical version of CLIP (MedICaT-ROCO), trained with the ROCO dataset, obtained from PubMed Central. MIRAGE allows users to give prompts to retrieve images, generate synthetic ones through a medical diffusion model (Prompt2MedImage) and receive enriched descriptions from a large language model (Dolly-v2-3b). It also supports a dual search option, enabling the visual comparison of different medical conditions. A key advantage of the system is that it relies entirely on publicly available pretrained models, ensuring reproducibility and accessibility. Our goal is to provide a free, transparent and easy-to-use didactic tool for medical students, especially those without programming skills. The system features an interface that enables interactive and personalized visual learning through medical image retrieval and generation. The system is accessible to medical students worldwide without requiring local computational resources or technical expertise, and is currently deployed on Kaggle: http://www-vpu.eps.uam.es/mirage