seg2med: a bridge from artificial anatomy to multimodal medical images

📄 arXiv: 2504.09182v2 📥 PDF

作者: Zeyu Yang, Zhilin Chen, Yipeng Sun, Anika Strittmatter, Anish Raj, Ahmad Allababidi, Johann S. Rink, Frank G. Zöllner

分类: eess.IV, cs.CV

发布日期: 2025-04-12 (更新: 2025-06-12)

备注: 17 pages, 10 figures Web demo available at https://huggingface.co/spaces/Zeyu0601/frankenstein


💡 一句话要点

Seg2Med:构建人工解剖学到多模态医学影像的桥梁

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学影像合成 多模态学习 解剖先验 数据增强 条件扩散模型

📋 核心要点

  1. 现有医学影像合成方法难以保证生成图像的解剖结构准确性和多模态一致性,限制了其在数据增强和医学AI中的应用。
  2. Seg2Med框架通过结合解剖先验、模态特定模拟器和条件去噪扩散模型,实现了高保真、结构对齐的跨模态医学影像合成。
  3. 实验结果表明,Seg2Med在CT和MR图像合成以及模态转换方面均取得了优异的性能,并在解剖结构保真度方面表现出色。

📝 摘要(中文)

本文提出Seg2Med,一个模块化的框架,用于实现基于解剖结构的驱动的多模态医学影像合成。该系统集成了三个组件,以实现基于结构化解剖先验的高保真、跨模态的CT和MR图像生成。首先,解剖图独立地从三个来源获得:真实患者数据、XCAT数字体模以及通过组合多个患者的器官而创建的合成解剖结构。其次,我们引入了PhysioSynth,一个特定于模态的模拟器,它使用组织相关的参数(例如,HU、T1、T2、质子密度)和模态特定的信号模型将解剖掩模转换为先验体积。它支持CT和多种MR序列的模拟,包括GRE、SPACE和VIBE。第三,合成的解剖先验用于训练双通道条件去噪扩散模型,该模型将解剖先验作为结构条件与噪声图像一起输入,从而能够生成高质量、结构对齐的图像。该框架在CT上实现了0.94的SSIM,在MR上实现了0.89的SSIM(与真实数据相比),模拟CT的FSIM为0.78。生成质量进一步由CT合成的3.62的Frechet Inception Distance (FID)支持。在模态转换中,Seg2Med在MR到CT的转换中实现了0.91的SSIM,在CT到MR的转换中实现了0.77的SSIM。解剖保真度评估显示,合成CT在11个关键腹部器官的平均Dice得分高于0.90,在总共59个器官中的34个器官的平均Dice得分高于0.80。这些结果强调了Seg2Med在跨模态合成、数据增强和解剖学感知的医学AI中的实用性。

🔬 方法详解

问题定义:医学影像合成旨在生成逼真的医学图像,用于数据增强、模态转换等任务。然而,现有方法在生成具有精确解剖结构的图像方面面临挑战,尤其是在跨模态合成时,难以保证不同模态图像之间解剖结构的一致性。此外,现有方法对组织特性的建模较为简单,难以生成具有生理意义的图像。

核心思路:Seg2Med的核心思路是利用解剖先验信息来指导医学影像的生成过程。通过将解剖结构作为条件输入到生成模型中,可以确保生成图像的解剖结构准确性。此外,该方法还引入了模态特定的模拟器,用于将解剖掩模转换为具有生理意义的先验体积,从而提高生成图像的真实感。

技术框架:Seg2Med框架包含三个主要模块:1) 解剖图生成模块,用于从真实数据、数字体模或合成解剖结构中提取解剖掩模;2) PhysioSynth模块,一个模态特定的模拟器,用于将解剖掩模转换为先验体积,该模块使用组织相关的参数和模态特定的信号模型;3) 条件去噪扩散模型,用于基于解剖先验和噪声图像生成高质量的医学图像。

关键创新:Seg2Med的关键创新在于:1) 提出了一个模块化的框架,可以灵活地组合不同的解剖先验来源和模态特定的模拟器;2) 引入了PhysioSynth模块,可以生成具有生理意义的先验体积,从而提高生成图像的真实感;3) 使用条件去噪扩散模型,可以生成高质量、结构对齐的医学图像。

关键设计:PhysioSynth模块的关键设计在于使用组织相关的参数(例如,HU、T1、T2、质子密度)和模态特定的信号模型来模拟不同模态的医学图像。条件去噪扩散模型使用双通道输入,其中一个通道是解剖先验,另一个通道是噪声图像。损失函数未知,原文未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Seg2Med在CT合成中实现了0.94的SSIM和3.62的FID,在MR合成中实现了0.89的SSIM。在模态转换中,Seg2Med在MR到CT的转换中实现了0.91的SSIM,在CT到MR的转换中实现了0.77的SSIM。合成CT在11个关键腹部器官的平均Dice得分高于0.90,在总共59个器官中的34个器官的平均Dice得分高于0.80。这些结果表明Seg2Med在医学影像合成和模态转换方面具有优异的性能。

🎯 应用场景

Seg2Med具有广泛的应用前景,包括:1) 医学影像数据增强,可以生成大量的合成数据,用于训练深度学习模型;2) 跨模态医学影像合成,可以将一种模态的图像转换为另一种模态的图像,例如将MR图像转换为CT图像;3) 解剖学感知的医学AI,可以利用解剖先验信息来提高医学AI模型的性能。该研究有望推动医学影像分析和诊断的自动化和智能化。

📄 摘要(原文)

We present seg2med, a modular framework for anatomy-driven multimodal medical image synthesis. The system integrates three components to enable high-fidelity, cross-modality generation of CT and MR images based on structured anatomical priors. First, anatomical maps are independently derived from three sources: real patient data, XCAT digital phantoms, and synthetic anatomies created by combining organs from multiple patients. Second, we introduce PhysioSynth, a modality-specific simulator that converts anatomical masks into prior volumes using tissue-dependent parameters (e.g., HU, T1, T2, proton density) and modality-specific signal models. It supports simulation of CT and multiple MR sequences including GRE, SPACE, and VIBE. Third, the synthesized anatomical priors are used to train 2-channel conditional denoising diffusion models, which take the anatomical prior as structural condition alongside the noisy image, enabling generation of high-quality, structurally aligned images. The framework achieves SSIM of 0.94 for CT and 0.89 for MR compared to real data, and FSIM of 0.78 for simulated CT. The generative quality is further supported by a Frechet Inception Distance (FID) of 3.62 for CT synthesis. In modality conversion, seg2med achieves SSIM of 0.91 for MR to CT and 0.77 for CT to MR. Anatomical fidelity evaluation shows synthetic CT achieves mean Dice scores above 0.90 for 11 key abdominal organs, and above 0.80 for 34 of 59 total organs. These results underscore seg2med's utility in cross-modality synthesis, data augmentation, and anatomy-aware medical AI.