Quantifying Cross-Modal Interactions in Multimodal Glioma Survival Prediction via InterSHAP: Evidence for Additive Signal Integration

📄 arXiv: 2603.29977v1 📥 PDF

作者: Iain Swift, JingHua Ye, Ruairi O'Reilly

分类: cs.LG, cs.AI, q-bio.QM

发布日期: 2026-03-31

备注: 8 pages, 1 figure, under review at XAI 2026 LBW


💡 一句话要点

InterSHAP量化多模态胶质瘤生存预测中的交互作用,揭示加性信号整合机制。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 生存预测 胶质瘤 跨模态交互 InterSHAP 模型可解释性 Cox比例风险模型

📋 核心要点

  1. 现有方法缺乏对多模态深度学习中跨模态交互的直接量化,难以验证协同作用假设。
  2. 本研究将InterSHAP方法适配到Cox比例风险模型,量化跨模态交互在生存预测中的贡献。
  3. 实验表明,性能提升主要源于互补信号的加性整合,而非跨模态的协同作用。

📝 摘要(中文)

多模态深度学习常被认为能通过协同的跨模态交互来改善癌症预后,但这一假设尚未在生存预测中得到直接验证。本研究将基于Shapley交互指标的InterSHAP方法从分类问题适配到Cox比例风险模型,并用其量化胶质瘤生存预测中的跨模态交互。使用TCGA-GBM和TCGA-LGG数据(n=575),我们评估了四种融合全切片图像(WSI)和RNA-seq特征的架构。主要发现是预测性能与测量的交互作用之间存在反比关系:实现更优异区分度(C-index从0.64提升至0.82)的架构表现出等同或更低的跨模态交互(4.8%降至3.0%)。方差分解显示所有架构中都存在稳定的加性贡献(WSI≈40%,RNA≈55%,交互≈4%),表明性能提升源于互补信号的聚合,而非学习到的协同作用。这些发现为比较融合策略提供了一种实用的模型审计工具,重新定义了多模态融合中架构复杂性的作用,并对保护隐私的联邦部署具有重要意义。

🔬 方法详解

问题定义:论文旨在解决多模态胶质瘤生存预测中,如何量化不同模态(WSI和RNA-seq)之间的交互作用,并验证现有方法中关于跨模态协同作用的假设。现有方法通常假设更复杂的融合架构能够学习到更强的跨模态协同作用,但缺乏直接的量化手段来验证这一假设,也无法区分性能提升是源于协同作用还是简单的信号聚合。

核心思路:论文的核心思路是利用InterSHAP方法,一种基于Shapley交互指标的度量,来量化不同模态特征之间的交互作用。通过将InterSHAP从分类问题适配到Cox比例风险模型,可以评估每个模态以及模态间交互对生存预测的贡献。这种方法能够帮助研究者理解不同融合架构的性能差异,并揭示性能提升的真正来源。

技术框架:整体框架包括以下几个主要步骤:1) 数据预处理:对WSI和RNA-seq数据进行预处理,提取特征。2) 模型构建:构建四种不同的多模态融合架构,用于生存预测。3) InterSHAP计算:将InterSHAP方法适配到Cox比例风险模型,计算每个模态以及模态间交互的Shapley值。4) 方差分解:利用Shapley值进行方差分解,评估每个模态和交互作用对预测结果的贡献。5) 性能评估:使用C-index评估不同融合架构的生存预测性能。

关键创新:最重要的技术创新点是将InterSHAP方法从分类问题适配到Cox比例风险模型,使其能够用于生存预测任务中的跨模态交互量化。与现有方法相比,InterSHAP提供了一种直接且可解释的方式来评估不同模态之间的交互作用,从而能够更深入地理解多模态融合的机制。

关键设计:论文的关键设计包括:1) InterSHAP的适配:针对Cox比例风险模型,修改InterSHAP的计算方式,使其能够处理生存时间数据。2) 多种融合架构的比较:选择四种不同的融合架构,包括早期融合、晚期融合等,以评估不同架构对跨模态交互的影响。3) 方差分解:利用Shapley值进行方差分解,量化每个模态和交互作用对预测结果的贡献,从而揭示性能提升的真正来源。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,预测性能与跨模态交互之间存在反比关系,即C-index从0.64提升至0.82的同时,跨模态交互从4.8%降至3.0%。方差分解显示,WSI和RNA-seq的加性贡献稳定,表明性能提升主要源于互补信号的聚合,而非协同作用。这些发现挑战了多模态融合中架构复杂性的作用。

🎯 应用场景

该研究成果可应用于癌症预后预测,帮助医生制定更精准的治疗方案。InterSHAP方法作为模型审计工具,可用于比较不同的多模态融合策略,指导模型设计。研究结果对保护隐私的联邦学习部署具有重要意义,有助于在多中心数据共享的同时,保证患者隐私。

📄 摘要(原文)

Multimodal deep learning for cancer prognosis is commonly assumed to benefit from synergistic cross-modal interactions, yet this assumption has not been directly tested in survival prediction settings. This work adapts InterSHAP, a Shapley interaction index-based metric, from classification to Cox proportional hazards models and applies it to quantify cross-modal interactions in glioma survival prediction. Using TCGA-GBM and TCGA-LGG data (n=575), we evaluate four fusion architectures combining whole-slide image (WSI) and RNA-seq features. Our central finding is an inverse relationship between predictive performance and measured interaction: architectures achieving superior discrimination (C-index 0.64$\to$0.82) exhibit equivalent or lower cross-modal interaction (4.8\%$\to$3.0\%). Variance decomposition reveals stable additive contributions across all architectures (WSI${\approx}$40\%, RNA${\approx}$55\%, Interaction${\approx}$4\%), indicating that performance gains arise from complementary signal aggregation rather than learned synergy. These findings provide a practical model auditing tool for comparing fusion strategies, reframe the role of architectural complexity in multimodal fusion, and have implications for privacy-preserving federated deployment.