HDMoE: A Hierarchical Decoupling-Fusion Mixture-of-Experts Framework for Multimodal Cancer Survival Prediction

📄 arXiv: 2605.20891v1 📥 PDF

作者: Huayi Wang, Haochao Ying, Yuyang Xu, Qiyao Zheng, jun wang, Cheng Zhang, Ying Sun, Jian Wu

分类: cs.CV

发布日期: 2026-05-20

备注: 12 pages, HDMoE has been accepted by KDD 2026 AI for Sciences Track

🔗 代码/项目: GITHUB


💡 一句话要点

提出HDMoE框架,用于解决多模态癌症生存预测中冗余信息和细粒度关系建模问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 癌症生存预测 专家混合模型 特征解耦 特征融合 医学影像分析 基因组数据

📋 核心要点

  1. 现有方法在多模态癌症生存预测中,未能有效减少模态特征的冗余信息,影响了解耦和融合效果。
  2. HDMoE框架通过分层MoE和RFR模块,在模态内和模态间进行细粒度的特征解耦与融合,提升模型性能。
  3. 在肝癌和TCGA数据集上的实验表明,HDMoE框架能够有效提升多模态癌症生存预测的准确性。

📝 摘要(中文)

多模态生存预测是一项关键但具有挑战性的任务,它需要整合多模态医学数据(如全切片图像(WSIs)和基因组谱)以实现精确的预后建模。考虑到模态之间固有的异质性,特征解耦-融合范式已成为一种主要方法。然而,这些方法存在以下缺点:(1)未能减少解耦前模态特征的冗余信息,从而对特征解耦和融合效果产生负面影响;(2)缺乏对特征的细粒度关系进行建模以及捕获模态内和模态间特征之间的局部信息交互的能力。为了解决这些问题,我们提出了一个分层解耦-融合专家混合(HDMoE)框架,该框架具有两层MoE和随机特征重组(RFR)模块。在第一层MoE中,共享专家和路由专家用于去除冗余信息并提取每个模态内的细粒度特定特征,而第二层MoE有助于细粒度的模态间特征解耦。此外,我们在每层MoE之后设计了两个RFR模块,以精细地融合模态内和模态间特征,这有助于模型捕获模态之间更细粒度的关系。在我们私有的肝癌(LC)和三个TCGA公共数据集上的大量实验结果证实了我们提出的方法的有效性。

🔬 方法详解

问题定义:论文旨在解决多模态癌症生存预测中,现有方法无法有效处理模态特征冗余信息,以及缺乏对模态内和模态间细粒度关系建模的问题。现有方法在特征解耦前,未能充分去除冗余信息,导致解耦和融合效果不佳,并且缺乏捕获局部信息交互的能力。

核心思路:论文的核心思路是利用分层的专家混合模型(MoE)和随机特征重组(RFR)模块,实现模态内和模态间的细粒度特征解耦与融合。通过MoE去除冗余信息,提取特定特征,并通过RFR模块捕获模态间更细粒度的关系。

技术框架:HDMoE框架包含两个层级的MoE模块和RFR模块。第一层MoE利用共享专家和路由专家,去除每个模态内的冗余信息,并提取细粒度的特定特征。第二层MoE促进细粒度的模态间特征解耦。每个MoE模块后都跟随一个RFR模块,用于精细地融合模态内和模态间特征。

关键创新:HDMoE的关键创新在于分层的MoE结构和RFR模块的结合。分层MoE能够逐层去除冗余信息并提取关键特征,RFR模块则能够捕获模态间更细粒度的关系,从而提升模型的预测性能。这种分层解耦-融合的策略是与现有方法的本质区别。

关键设计:第一层MoE包含共享专家和路由专家,共享专家学习模态间的通用特征,路由专家学习模态特定的特征。第二层MoE则根据不同模态的特征,动态地选择不同的专家进行融合。RFR模块通过随机重组特征,增加特征之间的交互,从而捕获更细粒度的关系。损失函数方面,可能采用了生存分析中常用的C-index损失函数,以优化模型的生存预测能力(具体损失函数细节未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在私有肝癌数据集和三个TCGA公共数据集上进行了实验,验证了HDMoE框架的有效性。具体性能数据未知,但摘要中提到实验结果证实了该方法的有效性,表明HDMoE在多模态癌症生存预测任务上优于现有方法,能够更准确地预测患者的生存情况。

🎯 应用场景

HDMoE框架可应用于多种癌症类型的生存预测,通过整合基因组数据和医学影像数据,为医生提供更准确的预后信息,辅助临床决策,制定个性化的治疗方案,并有望提高患者的生存率和生活质量。该方法也可推广到其他多模态医学数据分析任务中。

📄 摘要(原文)

Multimodal survival prediction, a crucial yet challenging task, demands the integration of multimodal medical data (\eg Whole Slide Images (WSIs) and Genomic Profiles) to achieve accurate prognostic modeling. Given the inherent heterogeneity across modalities, the feature decoupling-fusion paradigm has emerged as a dominant approach. However, these methods have the following shortcomings: (1) fail to reduce the redundant information of modality features before decoupling, which negatively affects the feature decoupling and fusion effect;(2) lack the ability to model the fine-grained relationships of the features and capture the local information interactions between intra- and inter-modality features. To address these issues, we propose a \underline{H}ierarchical \underline{D}ecoupling-Fusion \underline{M}ixture-\underline{o}f-\underline{E}xperts (HDMoE) framework with two levels of MoE and \underline{R}andom \underline{F}eature \underline{R}eorganization (RFR) modules.In the first-level MoE, shared experts and routed experts are employed to remove redundant information and extract fine-grained specific features within each modality, while the second-level MoE facilitates fine-grained inter-modality feature decoupling. Besides, we design two RFR modules following each level of MoE to finely fuse intra- and inter-modality features, which can help the model capture more fine-grained relationships between modalities. Extensive experimental results on our private Liver Cancer (LC) and three TCGA public datasets confirm the effectiveness of our proposed method. Codes are available at https://github.com/ZJUMAI/HDMoE.