Multiscale Structure-Guided Latent Diffusion for Multimodal MRI Translation

作者: Jianqiang Lin, Zhiqiang Shen, Peng Cao, Jinzhu Yang, Osmar R. Zaiane, Xiaoli Liu

分类: eess.IV, cs.AI, cs.CV

发布日期: 2026-03-13

🔗 代码/项目: GITHUB

💡 一句话要点

提出MSG-LDM，通过多尺度结构引导潜在扩散模型实现多模态MRI图像转换，提升解剖一致性和纹理细节。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态MRI转换 潜在扩散模型 风格-结构解耦 医学图像合成 多尺度特征 解剖结构一致性 图像重建

📋 核心要点

现有MRI图像转换方法在处理缺失模态时，容易出现解剖结构不一致和纹理细节退化的问题。
MSG-LDM通过在潜在空间中解耦风格和结构信息，并结合多尺度特征，从而保留边界细节和解剖结构。
在BraTS2020和WMH数据集上的实验表明，MSG-LDM在重建完整结构方面优于现有方法。

📝 摘要（中文）

本文提出了一种基于潜在扩散的多模态MRI图像转换框架，称为MSG-LDM，旨在解决任意缺失模态场景下现有方法存在的解剖结构不一致或纹理细节退化问题。该方法利用可用的模态信息推断完整的结构信息，从而保留可靠的边界细节。具体而言，在潜在空间中引入了一种风格-结构解耦机制，将模态特定的风格特征与共享的结构表示显式分离，并在多尺度特征空间中联合建模低频解剖布局和高频边界细节。在结构解耦阶段，显式地结合高频结构信息以增强特征表示，引导模型关注细粒度的结构线索，同时学习模态不变的低频解剖表示。此外，为了减少来自模态特定风格的干扰并提高结构表示的稳定性，设计了风格一致性损失和结构感知损失。在BraTS2020和WMH数据集上的大量实验表明，所提出的方法优于现有的MRI合成方法，特别是在重建完整结构方面。

🔬 方法详解

问题定义：论文旨在解决多模态MRI图像转换中，当某些模态缺失时，现有方法难以保持解剖结构一致性和生成高质量纹理细节的问题。现有方法的痛点在于无法有效分离模态特定的风格信息和共享的结构信息，导致生成图像时容易受到缺失模态的影响，产生伪影或结构变形。

核心思路：论文的核心思路是在潜在扩散模型的框架下，通过显式地解耦模态特定的风格特征和共享的结构表示，并利用多尺度特征空间建模低频解剖布局和高频边界细节，从而提高生成图像的结构一致性和纹理质量。这样设计的目的是为了让模型能够更好地利用可用的模态信息推断完整的结构信息，并减少缺失模态带来的干扰。

技术框架：MSG-LDM框架主要包含以下几个阶段：1) 使用编码器将输入的多模态MRI图像映射到潜在空间；2) 在潜在空间中进行风格-结构解耦，提取模态特定的风格特征和共享的结构表示；3) 利用多尺度特征空间建模低频解剖布局和高频边界细节；4) 使用解码器将潜在表示映射回图像空间，生成目标模态的MRI图像。整个框架基于潜在扩散模型，通过逐步去噪的过程生成高质量的图像。

关键创新：论文最重要的技术创新点在于提出了风格-结构解耦机制，该机制能够显式地分离模态特定的风格特征和共享的结构表示。与现有方法相比，MSG-LDM能够更好地利用可用的模态信息推断完整的结构信息，并减少缺失模态带来的干扰，从而提高生成图像的结构一致性和纹理质量。此外，多尺度特征空间建模也能够更好地捕捉图像的细节信息。

关键设计：论文的关键设计包括：1) 风格一致性损失，用于约束风格特征的一致性，减少模态特定风格的干扰；2) 结构感知损失，用于提高结构表示的稳定性，确保生成图像的结构一致性；3) 多尺度特征空间，用于捕捉不同尺度的图像信息，提高生成图像的纹理质量；4) 扩散模型的采样策略，用于生成高质量的图像。

🖼️ 关键图片

📊 实验亮点

MSG-LDM在BraTS2020和WMH数据集上进行了广泛的实验，结果表明该方法在重建完整结构方面优于现有的MRI合成方法。具体来说，MSG-LDM在结构相似性（SSIM）和峰值信噪比（PSNR）等指标上均取得了显著的提升，尤其是在处理具有复杂结构的脑部MRI图像时，其性能优势更为明显。实验结果验证了MSG-LDM在多模态MRI图像转换方面的有效性和优越性。

🎯 应用场景

该研究成果可应用于医学图像分析、诊断和治疗计划等领域。通过合成缺失的MRI模态，可以帮助医生更全面地了解患者的病情，提高诊断的准确性和效率。此外，该方法还可以用于生成不同对比度的MRI图像，从而辅助医生进行更精细的病灶分析。未来，该技术有望应用于临床实践，改善患者的医疗体验。

📄 摘要（原文）

Although diffusion models have achieved remarkable progress in multi-modal magnetic resonance imaging (MRI) translation tasks, existing methods still tend to suffer from anatomical inconsistencies or degraded texture details when handling arbitrary missing-modality scenarios. To address these issues, we propose a latent diffusion-based multi-modal MRI translation framework, termed MSG-LDM. By leveraging the available modalities, the proposed method infers complete structural information, which preserves reliable boundary details. Specifically, we introduce a style--structure disentanglement mechanism in the latent space, which explicitly separates modality-specific style features from shared structural representations, and jointly models low-frequency anatomical layouts and high-frequency boundary details in a multi-scale feature space. During the structure disentanglement stage, high-frequency structural information is explicitly incorporated to enhance feature representations, guiding the model to focus on fine-grained structural cues while learning modality-invariant low-frequency anatomical representations. Furthermore, to reduce interference from modality-specific styles and improve the stability of structure representations, we design a style consistency loss and a structure-aware loss. Extensive experiments on the BraTS2020 and WMH datasets demonstrate that the proposed method outperforms existing MRI synthesis approaches, particularly in reconstructing complete structures. The source code is publicly available at https://github.com/ziyi-start/MSG-LDM.

Multiscale Structure-Guided Latent Diffusion for Multimodal MRI Translation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理