AdaMHF: Adaptive Multimodal Hierarchical Fusion for Survival Prediction

📄 arXiv: 2503.21124v1 📥 PDF

作者: Shuaiyu Zhang, Xun Lin, Rongxiang Zhang, Yu Bai, Yong Xu, Tao Tan, Xunbin Zheng, Zitong Yu

分类: cs.CV

发布日期: 2025-03-27

备注: Accepted by ICME 2025


💡 一句话要点

提出AdaMHF,自适应多模态分层融合用于提升生存预测精度,尤其在数据缺失场景下。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生存预测 多模态融合 分层融合 医学图像分析 基因组数据 异质性 稀疏性

📋 核心要点

  1. 现有生存预测方法忽略了医学数据中模态内部和模态之间的异质性和稀疏性,限制了临床应用。
  2. AdaMHF通过专家扩展、残差结构和分层融合,自适应地提取和融合多模态特征,提升预测精度。
  3. 在TCGA数据集上,AdaMHF超越了现有SOTA方法,在完整和不完整模态设置下均表现出色。

📝 摘要(中文)

随着多模态学习的进步,整合病理图像和基因组数据进行生存分析越来越受到关注。然而,现有方法通常忽略了模态内部和模态之间的异质性和稀疏性等生物学特征,限制了其在临床实践中的适应性。为了解决这些挑战,我们提出了AdaMHF:自适应多模态分层融合框架,旨在实现高效、全面和定制化的特征提取和融合。AdaMHF专门针对医学数据的独特性进行调整,即使在模态缺失的挑战性场景下,也能以最小的资源消耗实现准确的预测。最初,AdaMHF采用专家扩展和残差结构来激活专门的专家,以提取异构和稀疏特征。提取的tokens通过选择和聚合进行细化,减少非主导特征的权重,同时保留全面的信息。随后,编码的特征被分层融合,从而捕获跨模态的多粒度交互。此外,我们引入了一个生存预测基准,旨在解决模态缺失的场景,反映了真实的临床条件。在TCGA数据集上的大量实验表明,AdaMHF超越了当前最先进的方法,在完整和不完整的模态设置中都表现出卓越的性能。

🔬 方法详解

问题定义:现有生存预测方法在整合病理图像和基因组数据时,未能充分考虑医学数据固有的异质性和稀疏性。这些方法通常采用简单的特征拼接或浅层融合,无法有效捕捉模态内部和模态之间的复杂关系,导致预测精度受限,尤其是在临床数据普遍存在缺失的情况下,性能下降明显。

核心思路:AdaMHF的核心思路是自适应地提取和融合多模态特征,以应对医学数据的异质性和稀疏性。通过专家扩展和残差结构,激活专门的专家来处理不同类型的特征。分层融合机制允许模型捕捉不同粒度的模态间交互,从而提高预测的准确性和鲁棒性。这种设计旨在更好地模拟临床实际情况,提高模型在数据缺失情况下的泛化能力。

技术框架:AdaMHF框架主要包含三个阶段:特征提取、特征细化和分层融合。首先,利用专家扩展和残差结构从病理图像和基因组数据中提取特征。然后,通过选择和聚合机制,对提取的特征进行细化,减少噪声和冗余信息。最后,采用分层融合策略,将不同模态的特征在不同层次上进行融合,以捕捉多粒度的模态间关系。整个框架旨在实现高效、全面和定制化的特征提取和融合。

关键创新:AdaMHF的关键创新在于其自适应的多模态分层融合机制。与现有方法相比,AdaMHF能够更好地处理医学数据的异质性和稀疏性,并能够有效地利用不同模态之间的互补信息。专家扩展和残差结构的设计使得模型能够专注于提取关键特征,而分层融合策略则允许模型捕捉不同粒度的模态间交互。此外,该框架还考虑了临床数据缺失的情况,并设计了相应的解决方案。

关键设计:在特征提取阶段,采用了专家扩展和残差结构,具体实现方式未知,需要查阅论文细节。特征细化阶段,使用了选择和聚合机制,具体实现方式未知,需要查阅论文细节。分层融合阶段,采用了多层融合策略,具体层数和融合方式未知,需要查阅论文细节。损失函数方面,采用了标准的生存分析损失函数,例如Cox比例风险模型或其变体。具体参数设置未知,需要查阅论文细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AdaMHF在TCGA数据集上超越了当前最先进的方法,在完整和不完整模态设置中都表现出卓越的性能。具体提升幅度未知,需要查阅论文细节。该研究还引入了一个生存预测基准,旨在解决模态缺失的场景,为未来的研究提供了参考。

🎯 应用场景

AdaMHF具有广泛的应用前景,可用于多种癌症类型的生存预测,辅助临床医生制定更精准的治疗方案。该研究的成果有助于提高癌症患者的生存率和生活质量,并为个性化医疗的发展提供技术支持。未来,该方法可以扩展到其他医学领域,例如疾病诊断和预后评估。

📄 摘要(原文)

The integration of pathologic images and genomic data for survival analysis has gained increasing attention with advances in multimodal learning. However, current methods often ignore biological characteristics, such as heterogeneity and sparsity, both within and across modalities, ultimately limiting their adaptability to clinical practice. To address these challenges, we propose AdaMHF: Adaptive Multimodal Hierarchical Fusion, a framework designed for efficient, comprehensive, and tailored feature extraction and fusion. AdaMHF is specifically adapted to the uniqueness of medical data, enabling accurate predictions with minimal resource consumption, even under challenging scenarios with missing modalities. Initially, AdaMHF employs an experts expansion and residual structure to activate specialized experts for extracting heterogeneous and sparse features. Extracted tokens undergo refinement via selection and aggregation, reducing the weight of non-dominant features while preserving comprehensive information. Subsequently, the encoded features are hierarchically fused, allowing multi-grained interactions across modalities to be captured. Furthermore, we introduce a survival prediction benchmark designed to resolve scenarios with missing modalities, mirroring real-world clinical conditions. Extensive experiments on TCGA datasets demonstrate that AdaMHF surpasses current state-of-the-art (SOTA) methods, showcasing exceptional performance in both complete and incomplete modality settings.