A versatile foundation model for cine cardiac magnetic resonance image analysis tasks

📄 arXiv: 2506.00679v2 📥 PDF

作者: Yunguan Fu, Wenjia Bai, Weixi Yi, Charlotte Manisty, Anish N Bhuva, Thomas A Treibel, James C Moon, Matthew J Clarkson, Rhodri Huw Davies, Yipeng Hu

分类: eess.IV, cs.AI, cs.CV

发布日期: 2025-05-31 (更新: 2025-08-31)

🔗 代码/项目: GITHUB


💡 一句话要点

CineMA:用于电影心血管磁共振图像分析的多功能基础模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心脏磁共振成像 基础模型 深度学习 图像分割 疾病诊断 预后预测 Transformer 掩码自编码器

📋 核心要点

  1. 现有心脏电影磁共振图像分析方法在泛化性和多任务处理上存在局限,难以适应多样化的临床需求。
  2. CineMA采用多视角卷积-Transformer掩码自编码器,在大规模数据集上进行预训练,学习通用的心脏表征。
  3. 实验表明,CineMA在分割、诊断、预后等任务上优于传统CNN,且在不同人口亚组中表现出一致的公平性。

📝 摘要(中文)

本文提出了一种多功能的基础模型CineMA,用于执行一系列临床相关图像分析任务,包括分割、地标定位、诊断和预后。CineMA是一个多视角卷积-Transformer掩码自编码器,在来自74916名受试者的1500万张电影图像上进行训练。该模型在多个图像分析任务上进行了验证,并与现有模型在来自八个独立数据集的4500多张图像上进行了比较,这些数据集具有多样的人口特征,代表了迄今为止最大的电影CMR基准研究。CineMA在描绘心室边界和估计射血分数(心脏功能的关键指标)方面始终优于传统的卷积神经网络(CNN)。即使模型仅使用一半的微调数据,改进的性能也得以保持。CineMA在疾病检测方面也超过了CNN,并在长轴功能测量方面与CNN的性能相匹配。有趣的是,我们发现CineMA还可以检测糖尿病、高血压和癌症等全身性疾病的心脏变化,并且还可以预测死亡率。最后,我们评估了模型的公平性,并证明了模型在不同人口亚组中的一致性能。这些发现突显了CineMA的准确性、学习效率、适应性和公平性,强调了其作为自动化心脏图像分析的基础模型以支持临床工作流程和心血管研究的潜力。所有训练和推理代码和模型均可在https://github.com/mathpluscode/CineMA公开获取。

🔬 方法详解

问题定义:论文旨在解决电影心血管磁共振(cine CMR)图像分析中现有方法泛化能力不足,难以同时处理多种临床相关任务的问题。现有方法,如传统的卷积神经网络(CNN),通常针对特定任务进行优化,缺乏通用性和适应性,需要大量标注数据进行训练,且在不同数据集上的表现差异较大。

核心思路:论文的核心思路是利用大规模无标注cine CMR图像数据,预训练一个通用的基础模型CineMA,使其能够学习到心脏的通用表征。然后,通过少量标注数据对CineMA进行微调,使其能够适应各种下游任务,如分割、地标定位、诊断和预后。这种方法可以提高模型的泛化能力和学习效率,减少对标注数据的依赖。

技术框架:CineMA的整体架构是一个多视角卷积-Transformer掩码自编码器。该模型首先使用卷积层提取图像的局部特征,然后使用Transformer层学习全局上下文信息。为了提高模型的鲁棒性,CineMA采用了掩码自编码器的训练方式,即随机掩盖一部分输入图像,然后让模型预测被掩盖的部分。该模型包含编码器和解码器两个主要模块。编码器将输入图像编码成一个低维的特征向量,解码器则将该特征向量解码成重建的图像。

关键创新:CineMA的关键创新在于其多视角卷积-Transformer架构和掩码自编码器的训练方式。多视角卷积-Transformer架构可以有效地提取图像的局部和全局特征,提高模型的表征能力。掩码自编码器的训练方式可以提高模型的鲁棒性,使其能够更好地适应各种噪声和干扰。此外,CineMA在大规模cine CMR数据集上进行预训练,使其能够学习到心脏的通用表征,从而提高了模型的泛化能力。

关键设计:CineMA的关键设计包括:1) 使用多视角卷积层提取不同尺度的局部特征;2) 使用Transformer层学习全局上下文信息;3) 采用掩码比例为50%的掩码自编码器训练方式;4) 使用AdamW优化器进行训练;5) 使用余弦退火学习率策略。损失函数主要包括重建损失(例如,均方误差)和正则化项。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CineMA在多个心脏图像分析任务上取得了显著的性能提升。在心室分割任务中,CineMA优于传统的CNN模型,尤其是在射血分数估计方面。即使仅使用一半的微调数据,CineMA仍然保持了优越的性能。此外,CineMA在疾病检测方面也超过了CNN,并且能够检测到糖尿病、高血压和癌症等全身性疾病引起的心脏变化,以及预测死亡率。模型在不同人口亚组中表现出一致的公平性。

🎯 应用场景

CineMA作为心脏电影磁共振图像分析的基础模型,具有广泛的应用前景。它可以用于辅助医生进行心脏疾病的诊断和预后评估,提高诊断的准确性和效率。此外,CineMA还可以用于心血管疾病的研究,例如,探索疾病的发生发展机制,评估治疗方案的有效性。该模型有望推动心脏影像分析的自动化和智能化,为临床实践和科研提供有力支持。

📄 摘要(原文)

Here we present a versatile foundation model that can perform a range of clinically-relevant image analysis tasks, including segmentation, landmark localisation, diagnosis, and prognostication. A multi-view convolution-transformer masked autoencoder, named as CineMA, was trained on 15 million cine images from 74,916 subjects. The model was validated on multiple image analysis tasks and compared to existing models on >4,500 images from eight independent datasets with diverse population characteristics, representing the largest benchmark study for cine CMR so far. CineMA consistently outperformed conventional convolutional neural networks (CNNs) in delineating ventricular boundaries and estimating ejection fraction, a key measure of cardiac function. The improved performance was preserved, even when the model only used half of fine-tuning data. CineMA also surpassed CNNs in disease detection and matched their performance in long-axis function measurement. Interestingly, we found that CineMA can also detect cardiac changes in systemic diseases, such as diabetes, hypertension and cancer, and can also predict mortality. Finally, we assessed model fairness and demonstrated consistent model performance across demographic subgroups. These findings highlight CineMA's accuracy, learning efficiency, adaptability, and fairness, underscoring its potential as a foundation model for automated cardiac image analysis to support clinical workflow and cardiovascular research. All training and inference code and models are made publicly available at https://github.com/mathpluscode/CineMA.