Multimodal Prototyping for cancer survival prediction

📄 arXiv: 2407.00224v1 📥 PDF

作者: Andrew H. Song, Richard J. Chen, Guillaume Jaume, Anurag J. Vaidya, Alexander S. Baras, Faisal Mahmood

分类: cs.CV, stat.AP

发布日期: 2024-06-28

备注: ICML 2024


💡 一句话要点

提出基于多模态原型学习的癌症生存预测方法,显著降低计算量并提升可解释性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 癌症生存预测 病理图像分析 转录组分析 原型学习 Transformer 最优传输

📋 核心要点

  1. 现有方法在整合WSI和转录组数据时,产生大量tokens,导致高内存需求和复杂的可解释性分析。
  2. 该论文提出使用形态学原型压缩WSI tokens,并使用生物通路原型编码转录组谱,从而减少tokens数量。
  3. 实验结果表明,该方法在六种癌症类型上优于现有方法,同时显著降低了计算量,并提升了模型的可解释性。

📝 摘要(中文)

本文提出了一种用于癌症生存预测的多模态方法,该方法结合了千兆像素组织学全切片图像(WSI)和转录组谱。现有方法通常将WSI分割成大量小块(>10,000块),并将转录组分割成基因组,然后使用Transformer进行整合以预测结果。然而,这种过程会产生大量tokens,导致计算attention时需要大量内存,并使事后可解释性分析复杂化。本文假设可以通过以下方式解决这些问题:(1)使用形态学原型压缩WSI的组成tokens,从而有效地总结WSI的形态学内容,实现超过300倍的压缩;(2)通过使用生物通路原型编码转录组谱来准确地表征细胞功能,所有这些都以无监督的方式进行。然后,由此产生的多模态tokens由融合网络处理,该网络可以使用Transformer或最优传输交叉对齐,现在可以使用少量且固定数量的tokens进行操作,而无需近似。在六种癌症类型上的广泛评估表明,该框架优于最先进的方法,同时减少了计算量,并解锁了新的可解释性分析。

🔬 方法详解

问题定义:现有基于Transformer的多模态癌症生存预测方法,需要将WSI切分成大量patch,转录组数据也需要进行分组,导致输入tokens数量巨大,计算复杂度高,内存消耗大,并且难以进行事后解释。

核心思路:论文的核心思路是通过原型学习的方式,分别对WSI和转录组数据进行压缩,提取最具代表性的特征,从而减少tokens数量,降低计算复杂度,提高模型的可解释性。具体来说,使用形态学原型来总结WSI的形态学内容,使用生物通路原型来表征转录组谱的细胞功能。

技术框架:该方法包含以下几个主要模块:1) WSI形态学原型提取:使用无监督的方式学习WSI的形态学原型,将WSI压缩成少量具有代表性的形态学tokens。2) 转录组生物通路原型提取:使用无监督的方式学习转录组的生物通路原型,将转录组数据压缩成少量具有代表性的生物通路tokens。3) 多模态融合:将形态学tokens和生物通路tokens进行融合,可以使用Transformer或者最优传输交叉对齐的方式进行融合。4) 生存预测:使用融合后的特征进行生存预测。

关键创新:该方法最重要的创新点在于使用原型学习的方式对多模态数据进行压缩,从而减少tokens数量,降低计算复杂度,提高模型的可解释性。与现有方法相比,该方法不需要将WSI切分成大量patch,也不需要对转录组数据进行分组,而是直接学习数据的原型表示。

关键设计:在WSI形态学原型提取方面,使用了聚类算法(具体算法未知)来学习形态学原型。在转录组生物通路原型提取方面,使用了基因集富集分析(GSEA)等方法来确定生物通路。多模态融合方面,可以使用Transformer或者最优传输交叉对齐的方式进行融合。损失函数方面,使用了标准的生存分析损失函数(具体形式未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在六种癌症类型上进行了广泛评估,实验结果表明,该方法优于最先进的方法,同时显著降低了计算量。论文中提到WSI压缩率超过300倍,但具体的性能提升数据未知。该方法还解锁了新的可解释性分析,但具体分析方法和结果未知。

🎯 应用场景

该研究成果可应用于癌症的精准医疗领域,通过结合病理图像和基因表达数据,更准确地预测患者的生存期,辅助医生制定更有效的治疗方案。此外,该方法降低了计算成本,有望推动多模态数据在临床实践中的应用,并为药物研发提供新的思路。

📄 摘要(原文)

Multimodal survival methods combining gigapixel histology whole-slide images (WSIs) and transcriptomic profiles are particularly promising for patient prognostication and stratification. Current approaches involve tokenizing the WSIs into smaller patches (>10,000 patches) and transcriptomics into gene groups, which are then integrated using a Transformer for predicting outcomes. However, this process generates many tokens, which leads to high memory requirements for computing attention and complicates post-hoc interpretability analyses. Instead, we hypothesize that we can: (1) effectively summarize the morphological content of a WSI by condensing its constituting tokens using morphological prototypes, achieving more than 300x compression; and (2) accurately characterize cellular functions by encoding the transcriptomic profile with biological pathway prototypes, all in an unsupervised fashion. The resulting multimodal tokens are then processed by a fusion network, either with a Transformer or an optimal transport cross-alignment, which now operates with a small and fixed number of tokens without approximations. Extensive evaluation on six cancer types shows that our framework outperforms state-of-the-art methods with much less computation while unlocking new interpretability analyses.