Developing a PET/CT Foundation Model for Cross-Modal Anatomical and Functional Imaging
作者: Yujin Oh, Robert Seifert, Yihan Cao, Christoph Clement, Justin Ferdinandus, Constantin Lapa, Alessandro Liebich, Michelle Amon, Johanna Enke, Sifan Song, Runqi Meng, Fang Zeng, Ning Guo, Xiang Li, Pedram Heidari, Axel Rominger, Kuangyu Shi, Quanzheng Li
分类: cs.CV, cs.AI
发布日期: 2025-03-04
备注: 11 pages, 2 figures, 3 tables
💡 一句话要点
提出Cross-Fraternal Twin Masked Autoencoder,用于PET/CT跨模态解剖和功能成像
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: PET/CT成像 基础模型 跨模态学习 掩码自编码器 Vision Transformer 肿瘤诊断 医学影像
📋 核心要点
- 现有PET/CT分析依赖于特定任务模型,泛化性和鲁棒性受限,难以充分利用多模态信息。
- 提出Cross-Fraternal Twin Masked Autoencoder (FratMAE),通过掩码自编码器学习PET/CT的跨模态关系。
- FratMAE在下游任务上表现出色,证明了其作为通用基础模型的潜力,可提升PET/CT图像分析性能。
📝 摘要(中文)
正电子发射断层扫描-计算机断层扫描(PET/CT)在肿瘤学中被广泛用于癌症诊断、分期和治疗监测,因为它结合了CT的解剖细节与PET的功能代谢活动和分子标记表达信息。然而,现有的人工智能驱动的PET/CT分析主要依赖于从头开始训练的或基于有限数据集的特定任务模型,限制了它们的泛化性和鲁棒性。为了解决这个问题,我们提出了一种专门为多模态PET/CT成像设计的基础模型方法。我们引入了Cross-Fraternal Twin Masked Autoencoder (FratMAE),这是一个有效整合全身解剖和功能或分子信息的新框架。FratMAE为PET和CT扫描采用单独的Vision Transformer (ViT)编码器,以及交叉注意力解码器,从而在掩码自动编码器训练期间实现模态之间的协同交互。此外,它还结合了文本元数据来增强PET表征学习。通过在PET/CT数据集上进行预训练,FratMAE捕获了复杂的跨模态关系和全局摄取模式,在下游任务上实现了卓越的性能,并展示了其作为通用基础模型的潜力。
🔬 方法详解
问题定义:现有PET/CT图像分析方法依赖于特定任务的模型,这些模型通常需要从头开始训练,或者依赖于有限的数据集。这导致模型的泛化能力和鲁棒性较差,难以适应不同的临床场景和患者群体。此外,现有方法可能无法充分利用PET和CT两种模态之间的互补信息,从而影响诊断和治疗效果。
核心思路:论文的核心思路是构建一个PET/CT的基础模型,该模型能够学习到PET和CT图像之间的内在联系,以及全局的摄取模式。通过预训练的方式,使模型能够捕获到通用的图像特征,从而在下游任务中能够快速适应并取得良好的性能。这种方法类似于自然语言处理中的预训练语言模型,旨在提高模型的泛化能力和鲁棒性。
技术框架:FratMAE框架包含两个Vision Transformer (ViT)编码器,分别用于处理PET和CT图像。此外,框架还包含交叉注意力解码器,用于在掩码自编码器训练期间实现模态之间的协同交互。框架还利用文本元数据来增强PET表征学习。整个流程包括:首先,对PET和CT图像进行预处理;然后,使用ViT编码器提取图像特征;接着,使用交叉注意力解码器融合PET和CT特征;最后,通过掩码自编码器进行预训练。
关键创新:FratMAE的关键创新在于其跨模态的掩码自编码器结构,以及对文本元数据的利用。传统的掩码自编码器通常只处理单模态数据,而FratMAE能够同时处理PET和CT图像,并通过交叉注意力机制实现模态之间的信息交互。此外,通过引入文本元数据,可以进一步增强PET表征学习,提高模型的性能。
关键设计:FratMAE的关键设计包括:1) 使用ViT作为编码器,能够有效地提取图像特征;2) 使用交叉注意力机制,实现PET和CT图像之间的信息融合;3) 使用掩码自编码器进行预训练,能够学习到通用的图像特征;4) 引入文本元数据,增强PET表征学习。具体的参数设置和损失函数等技术细节在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
论文通过在PET/CT数据集上进行预训练,FratMAE捕获了复杂的跨模态关系和全局摄取模式,并在下游任务上实现了卓越的性能。具体的性能数据和对比基线在论文中进行了详细描述(未知),但摘要中明确指出FratMAE在下游任务上表现优于现有方法,展示了其作为通用基础模型的潜力。
🎯 应用场景
该研究成果可广泛应用于肿瘤的诊断、分期和治疗监测。通过构建PET/CT基础模型,可以提高癌症检测的准确性和效率,辅助医生进行更精准的治疗方案制定。未来,该模型有望扩展到其他疾病的诊断和治疗,例如神经退行性疾病和心血管疾病,具有广阔的应用前景。
📄 摘要(原文)
In oncology, Positron Emission Tomography-Computed Tomography (PET/CT) is widely used in cancer diagnosis, staging, and treatment monitoring, as it combines anatomical details from CT with functional metabolic activity and molecular marker expression information from PET. However, existing artificial intelligence-driven PET/CT analyses rely predominantly on task-specific models trained from scratch or on limited datasets, limiting their generalizability and robustness. To address this, we propose a foundation model approach specifically designed for multimodal PET/CT imaging. We introduce the Cross-Fraternal Twin Masked Autoencoder (FratMAE), a novel framework that effectively integrates whole-body anatomical and functional or molecular information. FratMAE employs separate Vision Transformer (ViT) encoders for PET and CT scans, along with cross-attention decoders that enable synergistic interactions between modalities during masked autoencoder training. Additionally, it incorporates textual metadata to enhance PET representation learning. By pre-training on PET/CT datasets, FratMAE captures intricate cross-modal relationships and global uptake patterns, achieving superior performance on downstream tasks and demonstrating its potential as a generalizable foundation model.