Comprehensive Multimodal Deep Learning Survival Prediction Enabled by a Transformer Architecture: A Multicenter Study in Glioblastoma

📄 arXiv: 2405.12963v1 📥 PDF

作者: Ahmed Gomaa, Yixing Huang, Amr Hagag, Charlotte Schmitter, Daniel Höfler, Thomas Weissmann, Katharina Breininger, Manuel Schmidt, Jenny Stritzelberger, Daniel Delev, Roland Coras, Arnd Dörfler, Oliver Schnell, Benjamin Frey, Udo S. Gaipl, Sabine Semrau, Christoph Bert, Rainer Fietkau, Florian Putz

分类: eess.IV, cs.CV, cs.LG

发布日期: 2024-05-21


💡 一句话要点

提出基于Transformer的多模态深度学习模型,提升胶质母细胞瘤生存预测精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 胶质母细胞瘤 生存预测 多模态学习 Transformer 自监督学习 交叉注意力 医学影像分析

📋 核心要点

  1. 现有胶质母细胞瘤生存预测方法难以有效整合多模态数据,且模型泛化能力不足,限制了临床应用。
  2. 论文提出基于Transformer的多模态深度学习模型,利用自监督学习和交叉注意力机制有效融合MRI和非图像数据。
  3. 实验结果表明,该模型在多个独立数据集上均表现出优异的生存预测性能,优于现有方法,并具有良好的泛化能力。

📝 摘要(中文)

本研究旨在通过集成MR图像、临床和分子病理数据,利用基于Transformer的深度学习模型来改进胶质母细胞瘤的生存预测,解决数据异质性和性能泛化问题。论文提出并评估了一个基于Transformer的非线性非比例生存预测模型。该模型采用自监督学习技术,有效地编码高维MRI输入,并使用交叉注意力机制与非图像数据集成。为了验证模型的泛化能力,使用时间依赖一致性指数(Cdt)在两种训练设置下,对三个独立的公共测试集(UPenn-GBM、UCSF-PDGM和RHUH-GBM,分别包含378、366和36个病例)进行了评估。结果表明,所提出的Transformer模型在图像和非图像数据上均取得了良好的性能,有效地集成了两种模态以提高性能(UPenn-GBM测试集,图像Cdt 0.645,多模态Cdt 0.707),同时优于最先进的基于late-fusion 3D-CNN的模型。在三个独立的多中心测试集中观察到一致的性能,Cdt值分别为0.707(UPenn-GBM,内部测试集)、0.672(UCSF-PDGM,第一个外部测试集)和0.618(RHUH-GBM,第二个外部测试集)。该模型在所有三个数据集中均实现了对预后良好和预后不良患者的显著区分(logrank p 1.9×10⁻⁸、9.7×10⁻³和1.2×10⁻²)。结论是,所提出的基于Transformer的生存预测模型集成了来自不同输入模态的互补信息,与最先进的方法相比,有助于改善胶质母细胞瘤的生存预测,并在不同机构间表现出一致的性能,支持了模型的泛化能力。

🔬 方法详解

问题定义:论文旨在解决胶质母细胞瘤生存预测问题,现有方法主要痛点在于难以有效整合来自MRI图像、临床数据和分子病理数据等多种模态的信息,并且模型在不同中心的数据集上泛化能力较差,导致预测精度和可靠性受限。

核心思路:论文的核心思路是利用Transformer架构强大的特征提取和融合能力,将MRI图像的高维信息与非图像数据进行有效整合,并通过自监督学习提升模型对MRI图像特征的表征能力。Transformer的注意力机制能够学习不同模态数据之间的关联性,从而提高生存预测的准确性。

技术框架:整体架构包含以下几个主要模块:1) MRI图像编码器:采用自监督学习预训练的Transformer模型,将MRI图像编码为高维特征向量。2) 非图像数据编码器:将临床和分子病理数据等非图像数据编码为特征向量。3) 交叉注意力融合模块:利用交叉注意力机制,将MRI图像特征向量和非图像数据特征向量进行融合,学习不同模态数据之间的关联性。4) 生存预测模块:基于融合后的特征向量,预测患者的生存概率。

关键创新:论文最重要的技术创新点在于将Transformer架构应用于多模态胶质母细胞瘤生存预测,并设计了自监督学习和交叉注意力机制,有效解决了多模态数据融合和模型泛化能力的问题。与现有方法相比,该模型能够更好地捕捉不同模态数据之间的互补信息,从而提高生存预测的准确性和可靠性。

关键设计:在MRI图像编码器中,使用了3D卷积神经网络提取图像局部特征,然后输入到Transformer编码器中进行全局特征学习。交叉注意力融合模块中,使用了多头注意力机制,学习不同模态数据之间的多种关联模式。生存预测模块中,使用了Cox比例风险模型,将融合后的特征向量映射到生存概率。

📊 实验亮点

该模型在UPenn-GBM测试集上,仅使用图像数据时Cdt为0.645,融合多模态数据后Cdt提升至0.707,显著优于state-of-the-art的基于late-fusion 3D-CNN的模型。在三个独立的外部测试集(UCSF-PDGM和RHUH-GBM)上,Cdt值分别为0.672和0.618,表明模型具有良好的泛化能力。Logrank检验结果显示,该模型在所有三个数据集上均能显著区分预后良好和预后不良的患者。

🎯 应用场景

该研究成果可应用于临床辅助决策,帮助医生更准确地预测胶质母细胞瘤患者的生存期,从而制定更个性化的治疗方案。此外,该模型也可推广到其他癌症类型的生存预测,具有广阔的应用前景。未来,可以将该模型集成到医疗影像平台中,实现智能化辅助诊断和治疗。

📄 摘要(原文)

Background: This research aims to improve glioblastoma survival prediction by integrating MR images, clinical and molecular-pathologic data in a transformer-based deep learning model, addressing data heterogeneity and performance generalizability. Method: We propose and evaluate a transformer-based non-linear and non-proportional survival prediction model. The model employs self-supervised learning techniques to effectively encode the high-dimensional MRI input for integration with non-imaging data using cross-attention. To demonstrate model generalizability, the model is assessed with the time-dependent concordance index (Cdt) in two training setups using three independent public test sets: UPenn-GBM, UCSF-PDGM, and RHUH-GBM, each comprising 378, 366, and 36 cases, respectively. Results: The proposed transformer model achieved promising performance for imaging as well as non-imaging data, effectively integrating both modalities for enhanced performance (UPenn-GBM test-set, imaging Cdt 0.645, multimodal Cdt 0.707) while outperforming state-of-the-art late-fusion 3D-CNN-based models. Consistent performance was observed across the three independent multicenter test sets with Cdt values of 0.707 (UPenn-GBM, internal test set), 0.672 (UCSF-PDGM, first external test set) and 0.618 (RHUH-GBM, second external test set). The model achieved significant discrimination between patients with favorable and unfavorable survival for all three datasets (logrank p 1.9\times{10}^{-8}, 9.7\times{10}^{-3}, and 1.2\times{10}^{-2}). Conclusions: The proposed transformer-based survival prediction model integrates complementary information from diverse input modalities, contributing to improved glioblastoma survival prediction compared to state-of-the-art methods. Consistent performance was observed across institutions supporting model generalizability.