Discrete Diffusion Models with MLLMs for Unified Medical Multimodal Generation

📄 arXiv: 2510.06131v1 📥 PDF

作者: Jiawei Mao, Yuhan Wang, Lifeng Chen, Can Zhao, Yucheng Tang, Dong Yang, Liangqiong Qu, Daguang Xu, Yuyin Zhou

分类: cs.CV, cs.AI

发布日期: 2025-10-07

备注: 16 pages,6 figures


💡 一句话要点

提出MeDiM,一种基于MLLM的医学多模态离散扩散模型,实现统一的医学图像和文本生成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学图像生成 文本生成 多模态学习 离散扩散模型 多模态大语言模型 跨模态融合 医学报告生成

📋 核心要点

  1. 现有医学生成模型受限于特定模态,无法有效整合多源医学信息,阻碍了医学基础模型的发展。
  2. MeDiM利用离散扩散模型和多模态大语言模型,学习跨模态共享分布,实现统一的医学图像和文本生成。
  3. 实验表明,MeDiM在图像和报告生成方面表现出色,联合生成图像-报告对能显著提升下游任务性能。

📝 摘要(中文)

医学生成模型的发展受到模态特定场景的限制,阻碍了来自影像、病理和临床笔记的互补证据的整合。这种碎片化限制了它们发展成能够跨越生物医学数据全谱进行学习和推理的基础模型。我们提出了MeDiM,这是第一个医学离散扩散模型,它学习跨模态的共享分布,而无需模态特定的组件。MeDiM统一了多个生成任务:在图像和文本之间进行翻译,以及响应提示跨域联合生成图像-报告对。MeDiM建立在离散扩散框架之上,通过共享概率空间桥接视觉和语言表示。为了实现统一和灵活的医学生成,我们采用多模态大型语言模型(MLLM)作为扩散骨干,利用其先验知识和跨模态推理。引入了两个关键设计:(1)移除因果注意力掩码以实现双向上下文,以及(2)注入连续时间步嵌入以实现扩散感知。实验表明,MeDiM实现了高保真医学生成(在MIMIC-CXR上的FID为16.60,在PathGen上的FID为24.19)和准确的报告生成(METEOR为0.2650和0.2580)。联合生成的图像-报告对进一步增强了下游性能(BLEU-1提高6.43%,BLEU-2提高18.57%,BLEU-3提高31.58%,METEOR提高4.80%),表明MeDiM支持连贯且具有临床依据的多模态输出。

🔬 方法详解

问题定义:现有医学图像和文本生成模型通常是模态特定的,无法有效整合来自不同模态(如影像、病理报告、临床笔记)的信息。这导致模型难以学习到全面的医学知识,限制了其在复杂临床场景中的应用。现有方法缺乏跨模态的统一建模能力,无法充分利用不同模态之间的互补信息。

核心思路:MeDiM的核心思路是利用离散扩散模型将不同模态的数据映射到共享的概率空间,从而实现跨模态的统一建模。通过多模态大语言模型(MLLM)作为扩散骨干,利用其强大的先验知识和跨模态推理能力,实现高质量的医学图像和文本生成。这种方法避免了模态特定的组件,使得模型能够学习到更通用的医学知识。

技术框架:MeDiM的整体框架包括以下几个主要模块:1) 离散扩散过程:将图像和文本数据编码为离散的token序列,并逐步添加噪声。2) 多模态大语言模型(MLLM):作为扩散模型的骨干网络,负责学习噪声数据的分布,并进行去噪。3) 图像编码器和文本编码器:将原始图像和文本数据转换为MLLM可以处理的输入格式。4) 图像解码器和文本解码器:将MLLM的输出转换为最终的图像和文本。整个流程通过扩散过程实现跨模态信息的融合和生成。

关键创新:MeDiM的关键创新在于:1) 提出了一种基于离散扩散模型的跨模态医学生成框架,能够统一处理图像和文本数据。2) 利用多模态大语言模型(MLLM)作为扩散骨干,充分利用其先验知识和跨模态推理能力。3) 移除了因果注意力掩码,允许模型利用双向上下文信息,从而提高生成质量。4) 引入了连续时间步嵌入,使模型能够感知扩散过程的进度,从而更好地控制生成过程。

关键设计:MeDiM的关键设计包括:1) 使用VQ-VAE将图像编码为离散的token序列。2) 使用BERT将文本编码为离散的token序列。3) MLLM采用Transformer架构,并进行预训练以获得医学领域的先验知识。4) 损失函数包括扩散损失和重构损失,用于优化模型的生成能力。5) 连续时间步嵌入采用正弦位置编码,并将其添加到MLLM的输入中。

🖼️ 关键图片

img_0

📊 实验亮点

MeDiM在MIMIC-CXR数据集上实现了16.60的FID,在PathGen数据集上实现了24.19的FID,表明其具有高保真医学图像生成能力。在报告生成方面,MeDiM的METEOR指标达到0.2650和0.2580。联合生成的图像-报告对进一步提升了下游任务性能,BLEU-1提高6.43%,BLEU-2提高18.57%,BLEU-3提高31.58%,METEOR提高4.80%。

🎯 应用场景

MeDiM具有广泛的应用前景,包括医学图像报告自动生成、医学图像和文本的跨模态检索、辅助诊断和治疗方案制定等。该模型能够整合多源医学信息,为医生提供更全面的临床决策支持。未来,MeDiM有望成为医学领域的基础模型,推动医学人工智能的发展。

📄 摘要(原文)

Recent advances in generative medical models are constrained by modality-specific scenarios that hinder the integration of complementary evidence from imaging, pathology, and clinical notes. This fragmentation limits their evolution into foundation models that can learn and reason across the full spectrum of biomedical data. We propose MeDiM, the first medical discrete diffusion model that learns shared distributions across modalities without modality-specific components. MeDiM unifies multiple generative tasks: translating between images and text, and jointly producing image-report pairs across domains in response to prompts. Built on a discrete diffusion framework, MeDiM bridges vision and language representations through a shared probabilistic space. To enable unified and flexible medical generation, we employ a multimodal large language model (MLLM) as the diffusion backbone, leveraging its prior knowledge and cross-modal reasoning. Two key designs are introduced: (1) removing the causal attention mask for bidirectional context, and (2) injecting continuous timestep embeddings for diffusion awareness. Experiments demonstrate high-fidelity medical generation (FID 16.60 on MIMIC-CXR and FID 24.19 on PathGen) and accurate report generation (METEOR 0.2650 and 0.2580). Jointly generated image-report pairs further enhance downstream performance (plus6.43 percent BLEU-1, plus18.57 percent BLEU-2, plus31.58 percent BLEU-3, plus4.80 percent METEOR), showing that MeDiM supports coherent and clinically grounded multimodal outputs.