Any-to-All MRI Synthesis: A Unified Foundation Model for Nasopharyngeal Carcinoma and Its Downstream Applications
作者: Yao Pu, Yiming Shi, Zhenxi Zhang, Peixin Yu, Yitao Zhuang, Xiang Wang, Hongzhao Chen, Jing Cai, Ge Ren
分类: cs.CV
发布日期: 2026-02-09
💡 一句话要点
提出用于鼻咽癌MRI任意模态合成的统一基础模型,提升放疗规划精度。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: MRI合成 鼻咽癌 放疗规划 对比学习 视觉-语言对齐 基础模型 医学影像
📋 核心要点
- 临床MRI常因患者因素导致模态不全,传统MRI合成方法模态特定且缺乏临床解释性,限制了鼻咽癌放疗规划的精度。
- 提出一种统一的基础模型,结合对比视觉表征学习和视觉-语言对齐,实现任意模态MRI合成,提升模型泛化性和语义一致性。
- 实验结果表明,该模型在多个验证集上表现出色,合成图像质量高,且能提升下游放疗相关任务的性能。
📝 摘要(中文)
磁共振成像(MRI)对鼻咽癌(NPC)放疗(RT)至关重要,但患者不适、扫描时间长和成本高等实际限制常导致临床上模态不完整,影响RT规划的准确性。传统的MRI合成方法是模态特定的,在解剖适应性方面有限,并且缺乏临床可解释性,无法满足NPC的RT需求。本文开发了一个统一的基础模型,集成了对比视觉表征学习和视觉-语言对齐(VLA),以实现任意到全部的MRI合成。该模型使用对比编码器进行模态不变的表征,并使用基于CLIP的文本信息解码器进行语义一致的合成,支持通过一个统一的基础模型进行任意到全部的MRI合成。在来自13个机构的40,825张图像上训练后,该模型在26个内部/外部验证站点(15,748张图像)上实现了持续的高性能(平均SSIM 0.90, PSNR 27),具有优越的合成保真度和对噪声和领域偏移的鲁棒性。同时,其统一的表征增强了下游RT相关任务(例如,分割)。这项工作通过利用基础模型来桥接技术合成和临床效用,从而推进了用于NPC护理的数字医学解决方案。
🔬 方法详解
问题定义:鼻咽癌放疗需要高质量、多模态的MRI图像,但实际临床中,由于患者因素、扫描时间等限制,常常无法获得完整的MRI序列。现有的MRI合成方法通常是针对特定模态设计的,泛化能力差,且难以保证合成图像的临床可解释性,无法满足鼻咽癌放疗规划的需求。
核心思路:本文的核心思路是构建一个统一的基础模型,通过对比学习提取模态不变的视觉表征,并利用视觉-语言对齐技术,将文本信息融入到图像合成过程中,从而实现任意模态到任意模态的MRI合成。这种方法旨在提高模型的泛化能力和合成图像的语义一致性,使其更符合临床需求。
技术框架:该模型主要包含两个模块:对比编码器和文本信息解码器。对比编码器负责提取输入MRI图像的模态不变表征,确保模型能够理解不同模态之间的共性信息。文本信息解码器则利用CLIP模型,将文本描述信息融入到图像合成过程中,从而保证合成图像的语义一致性。整个流程可以概括为:输入任意模态的MRI图像,通过对比编码器提取表征,结合文本描述信息,利用文本信息解码器生成目标模态的MRI图像。
关键创新:该论文的关键创新在于提出了一个统一的基础模型,能够实现任意模态到任意模态的MRI合成。与传统的模态特定方法相比,该模型具有更强的泛化能力和更高的效率。此外,该模型还引入了视觉-语言对齐技术,将文本信息融入到图像合成过程中,从而保证了合成图像的语义一致性。
关键设计:在对比编码器中,使用了对比损失函数来学习模态不变的表征。在文本信息解码器中,使用了基于CLIP的模型结构,将文本描述信息转化为图像特征,并将其融入到图像合成过程中。具体的网络结构和参数设置在论文中进行了详细描述,但具体数值未知。
📊 实验亮点
该模型在26个内部/外部验证站点上取得了优异的性能,平均SSIM达到0.90,PSNR达到27。实验结果表明,该模型具有优越的合成保真度和对噪声和领域偏移的鲁棒性。此外,该模型还能提升下游放疗相关任务的性能,例如分割任务。
🎯 应用场景
该研究成果可应用于鼻咽癌等疾病的精准放疗规划,通过合成缺失的MRI模态,提高放疗靶区勾画的准确性和效率,减少患者因扫描时间过长引起的不适。此外,该模型还可推广到其他医学影像领域,为临床诊断和治疗提供更全面的信息支持,具有广阔的应用前景。
📄 摘要(原文)
Magnetic resonance imaging (MRI) is essential for nasopharyngeal carcinoma (NPC) radiotherapy (RT), but practical constraints, such as patient discomfort, long scan times, and high costs often lead to incomplete modalities in clinical practice, compromising RT planning accuracy. Traditional MRI synthesis methods are modality-specific, limited in anatomical adaptability, and lack clinical interpretability-failing to meet NPC's RT needs. Here, we developed a unified foundation model integrating contrastive visual representation learning and vision-language alignment (VLA) to enable any-to-all MRI synthesis. The model uses a contrastive encoder for modality-invariant representations and a CLIP-based text-informed decoder for semantically consistent synthesis, supporting any-to-all MRI synthesis via one unified foundation model. Trained on 40,825 images from 13 institutions, it achieves consistently high performance (average SSIM 0.90, PSNR 27) across 26 internal/external validation sites (15,748 images), with superior synthesis fidelity and robustness to noise and domain shifts. Meanwhile, its unified representation enhances downstream RT-relevant tasks (e.g., segmentation). This work advances digital medicine solutions for NPC care by leveraging foundation models to bridge technical synthesis and clinical utility.