Disentangled and Interpretable Multimodal Attention Fusion for Cancer Survival Prediction

📄 arXiv: 2503.16069v2 📥 PDF

作者: Aniek Eijpe, Soufyan Lakbir, Melis Erdal Cesur, Sara P. Oliveira, Sanne Abeln, Wilson Silva

分类: cs.CV

发布日期: 2025-03-20 (更新: 2025-06-27)

备注: 11 pages, 1 figure, 3 tables. Preprint submitted and accepted to MICCAI 2025. This preprint has not undergone peer review or any post-submission improvements or corrections


💡 一句话要点

提出DIMAF模型,解耦多模态注意力融合,提升癌症生存预测性能与可解释性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 癌症生存预测 注意力机制 解耦表示学习 可解释性 全切片图像 转录组数据

📋 核心要点

  1. 现有方法在多模态融合时,容易纠缠模态共享和模态特有信息,降低模型的可解释性和性能。
  2. DIMAF通过解耦模态内和模态间交互,学习独立的模态特有和模态共享表示,提升模型性能。
  3. 实验表明,DIMAF在癌症生存预测任务上,性能提升1.85%,解耦程度提升23.7%,并具有良好的可解释性。

📝 摘要(中文)

为了提高利用全切片图像和转录组数据预测癌症生存率的准确性,捕获模态共享和模态特有的信息至关重要。然而,现有的多模态框架通常会纠缠这些表示,限制了可解释性,并可能抑制判别性特征。为了解决这个问题,我们提出了解耦且可解释的多模态注意力融合(DIMAF),该框架分离了基于注意力的融合机制中的模态内和模态间交互,以学习不同的模态特有和模态共享表示。我们引入了基于距离相关的损失函数来促进这些表示之间的解耦,并整合了Shapley加性解释来评估它们对生存预测的相对贡献。我们在四个公共癌症生存数据集上评估了DIMAF,与当前最先进的多模态模型相比,性能平均提高了1.85%,解耦程度提高了23.7%。除了提高性能外,我们的可解释框架还能够更深入地探索癌症生物学中模态之间和模态内部的潜在相互作用。

🔬 方法详解

问题定义:现有癌症生存预测方法在融合全切片图像和转录组等多模态数据时,难以有效区分和利用模态共享和模态特有的信息。这种信息纠缠限制了模型的可解释性,并可能导致关键判别特征被抑制,从而影响预测精度。现有方法缺乏对模态间复杂关系的有效建模和解耦机制。

核心思路:DIMAF的核心思路是通过解耦模态内和模态间的交互作用,从而学习到独立的、可解释的模态特有和模态共享的表示。这种解耦的设计允许模型更好地捕捉不同模态的独特信息,同时也能有效利用它们之间的关联性,最终提升生存预测的准确性和可解释性。模型通过注意力机制实现模态间的交互,并使用距离相关损失来促进表示的解耦。

技术框架:DIMAF框架主要包含以下几个模块:1) 特征提取模块:分别从全切片图像和转录组数据中提取特征。2) 注意力融合模块:使用注意力机制融合不同模态的特征,同时分离模态内和模态间的交互。3) 解耦模块:通过距离相关损失函数,促进模态特有和模态共享表示的解耦。4) 预测模块:基于解耦后的表示进行生存预测。5) 可解释性分析模块:使用Shapley加性解释评估不同模态对预测结果的贡献。

关键创新:DIMAF的关键创新在于其解耦的多模态注意力融合机制。与现有方法直接融合多模态特征不同,DIMAF显式地分离了模态内和模态间的交互,从而学习到更具区分性和可解释性的表示。此外,引入距离相关损失函数来促进表示的解耦也是一个重要的创新点,它能够有效地减少模态特有和模态共享信息之间的冗余。

关键设计:DIMAF的关键设计包括:1) 使用注意力机制进行模态融合,允许模型自适应地学习不同模态的权重。2) 设计了专门的损失函数(基于距离相关)来促进模态特有和模态共享表示的解耦,该损失函数最小化了这两种表示之间的依赖关系。3) 使用Shapley加性解释(SHAP)来评估不同模态对生存预测的贡献,从而提高模型的可解释性。4) 模型的具体网络结构和参数设置(如注意力头的数量、隐藏层的大小等)根据具体数据集进行调整。

🖼️ 关键图片

fig_0

📊 实验亮点

DIMAF在四个公共癌症生存数据集上进行了评估,结果表明,与当前最先进的多模态模型相比,DIMAF在性能上平均提高了1.85%,在解耦程度上提高了23.7%。这些结果表明,DIMAF能够有效地利用多模态数据,并学习到更具区分性和可解释性的表示,从而提升癌症生存预测的准确性。

🎯 应用场景

DIMAF模型可应用于癌症生存预测、疾病诊断和治疗方案选择等领域。通过整合多模态数据,该模型能够更准确地预测患者的生存概率,并为医生提供更全面的决策支持。此外,DIMAF的可解释性使其能够揭示不同模态数据在癌症发生发展中的作用,为癌症生物学研究提供新的 insights。

📄 摘要(原文)

To improve the prediction of cancer survival using whole-slide images and transcriptomics data, it is crucial to capture both modality-shared and modality-specific information. However, multimodal frameworks often entangle these representations, limiting interpretability and potentially suppressing discriminative features. To address this, we propose Disentangled and Interpretable Multimodal Attention Fusion (DIMAF), a multimodal framework that separates the intra- and inter-modal interactions within an attention-based fusion mechanism to learn distinct modality-specific and modality-shared representations. We introduce a loss based on Distance Correlation to promote disentanglement between these representations and integrate Shapley additive explanations to assess their relative contributions to survival prediction. We evaluate DIMAF on four public cancer survival datasets, achieving a relative average improvement of 1.85% in performance and 23.7% in disentanglement compared to current state-of-the-art multimodal models. Beyond improved performance, our interpretable framework enables a deeper exploration of the underlying interactions between and within modalities in cancer biology.