ProtoPathway: Biologically Structured Prototype-Pathway Fusion for Multimodal Cancer Survival Prediction

📄 arXiv: 2605.21454v1 📥 PDF

作者: Amaya Gallagher-Syed, Costantino Pitzalis, Myles J. Lewis, Michael R. Barnes, Gregory Slabaugh

分类: cs.CV, q-bio.QM, q-bio.TO

发布日期: 2026-05-20

备注: Currently under peer review

🔗 代码/项目: GITHUB


💡 一句话要点

ProtoPathway:用于多模态癌症生存预测的生物结构化原型-通路融合方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 癌症生存预测 多模态融合 生物学可解释性 图神经网络 注意力机制 组织病理学 基因组学

📋 核心要点

  1. 现有癌症生存预测方法缺乏生物学可解释性,难以理解基因、通路和组织形态之间的复杂关系。
  2. ProtoPathway通过学习形态学原型和编码基因通路层级结构,构建生物学基础的表示,并利用跨模态注意力建模分子程序与组织形态的关系。
  3. 在五个TCGA癌症队列上的实验表明,ProtoPathway在生存预测方面具有竞争力,同时显著提高了生物学可解释性并降低了计算成本。

📝 摘要(中文)

本文提出ProtoPathway,一种可解释的多模态框架,用于癌症生存预测。该框架通过编码器统一了全切片成像和转录组学,从而在融合的两侧产生生物学基础的表示。在组织病理学方面,K个可学习的形态学原型与生存目标进行端到端训练,作为切片本身的表示:图像块通过软分配流入原型token,将可变长度的图像块集合压缩为固定的任务自适应token。在基因组学方面,双向图神经网络在Reactome通路层级结构中编码基因表达,通过共享的基因-通路图上的双向消息传递,产生反映组成基因及其更广泛生物学背景的通路嵌入。然后,跨模态注意力机制在紧凑的原型×通路矩阵上运行,其中原型查询通路,从而对分子程序产生组织形态的生物学方向进行建模。由于两个轴都带有稳定的任务学习身份,因此注意力矩阵本身就是一个可解释性输出,从而可以在完整的生物学层级结构(从基因到通路和原型到空间组织图)上进行本地推理时归因。我们在五个TCGA癌症队列上进行了评估,证明了具有显着提高的生物学可解释性和降低的计算成本的具有竞争力或优越的生存预测,并通过分层折叠的基于等级的人群水平分析验证了解释性声明。我们的源代码、模型权重和Reactome通路,以及在相同预处理和评估下重新实现所有多模态生存基线的统一代码库,可在https://github.com/AmayaGS/ProtoPathway 获得。

🔬 方法详解

问题定义:癌症生存预测旨在根据患者的基因组和组织病理学数据预测其生存时间。现有的多模态方法通常缺乏生物学可解释性,难以理解基因、通路和组织形态之间的复杂关系,并且计算成本较高。

核心思路:ProtoPathway的核心思路是构建生物学结构化的表示,将基因组和组织病理学数据映射到生物学通路和形态学原型,并通过跨模态注意力机制建模它们之间的关系。这种设计旨在提高模型的可解释性,同时保持或提高预测性能。

技术框架:ProtoPathway包含以下主要模块:1) 组织病理学编码器:使用K个可学习的形态学原型来表示全切片图像,图像块通过软分配的方式与原型关联。2) 基因组学编码器:使用双向图神经网络在Reactome通路层级结构中编码基因表达,生成通路嵌入。3) 跨模态注意力:在原型和通路之间使用注意力机制,建模分子程序如何影响组织形态。4) 生存预测模块:基于融合的表示进行生存预测。

关键创新:ProtoPathway的关键创新在于:1) 生物学结构化的表示:通过形态学原型和基因通路层级结构,将多模态数据映射到生物学上有意义的表示空间。2) 跨模态注意力:建模原型和通路之间的关系,提供可解释的归因信息。3) 端到端训练:所有模块都与生存预测目标进行端到端训练,优化整体性能。

关键设计:组织病理学编码器使用K个可学习的原型,K的选择需要根据数据集进行调整。基因组学编码器使用双向图神经网络,消息传递的权重是可学习的。跨模态注意力使用标准的Transformer注意力机制。生存预测模块可以使用Cox比例风险模型或其他生存分析模型。损失函数包括生存损失和正则化项,以防止过拟合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ProtoPathway在五个TCGA癌症队列上进行了评估,结果表明,该方法在生存预测方面具有竞争力或优于现有方法,同时显著提高了生物学可解释性并降低了计算成本。通过分层折叠的基于等级的人群水平分析验证了解释性声明,表明ProtoPathway能够准确识别与生存相关的基因和通路。

🎯 应用场景

ProtoPathway可应用于癌症诊断和预后,帮助医生更好地理解患者的病情,制定个性化的治疗方案。该方法还可以用于药物研发,识别与特定癌症相关的关键基因和通路,为靶向治疗提供依据。此外,ProtoPathway框架可以扩展到其他疾病的多模态数据分析,例如神经退行性疾病和心血管疾病。

📄 摘要(原文)

We introduce ProtoPathway, an interpretable-by-design multimodal framework for cancer survival prediction that unifies whole slide imaging and transcriptomics through encoders producing biologically grounded representations on both sides of the fusion. On the histopathology side, $K$ learnable morphological prototypes, trained end-to-end with the survival objective, serve as the slide representation itself: patches flow into prototype tokens via soft assignment, compressing variable-length patch sets into fixed task-adaptive tokens. On the genomic side, a bipartite graph neural network encodes gene expression within the Reactome pathway hierarchy, producing pathway embeddings that reflect both constituent genes and their broader biological context through bidirectional message passing over a shared gene--pathway graph. Cross-modal attention then operates over a compact prototype $\times$ pathway matrix in which prototypes query pathways, modeling the biological direction in which molecular programs give rise to tissue morphology. Because both axes carry stable task-learned identity, the attention matrix is itself an interpretability output, yielding native inference-time attribution across the full biological hierarchy, from genes through pathways and prototypes to spatial tissue maps. We evaluate on five TCGA cancer cohorts, demonstrating competitive or superior survival prediction with substantially improved biological interpretability and reduced computational cost, with interpretability claims validated through fold-stratified rank-based population-level analysis. Our source code, model weights, and Reactome pathways, together with a unified codebase reimplementing all multimodal survival baselines under identical preprocessing and evaluation, are available at: https://github.com/AmayaGS/ProtoPathway.