Self-Normalizing Foundation Model for Enhanced Multi-Omics Data Analysis in Oncology

📄 arXiv: 2405.08226v2 📥 PDF

作者: Asim Waqas, Aakash Tripathi, Sabeen Ahmed, Ashwin Mukund, Hamza Farooq, Matthew B. Schabath, Paul Stewart, Mia Naeini, Ghulam Rasool

分类: cs.LG

发布日期: 2024-05-13 (更新: 2024-11-03)


💡 一句话要点

提出SeNMo自归一化基础模型,增强肿瘤多组学数据分析能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多组学数据分析 癌症预后预测 自归一化神经网络 基础模型 肿瘤精准医疗

📋 核心要点

  1. 现有方法难以有效整合多组学数据预测癌症患者预后,尤其是在高维低样本情况下。
  2. SeNMo通过自归一化机制,有效处理多组学数据,并利用基础模型学习泛癌表征。
  3. SeNMo在总生存期预测和癌症类型分类任务中表现出色,C-Index达0.758,准确率达99.8%。

📝 摘要(中文)

多组学研究加深了我们对癌症异质性和进展的理解。通过多组学方法研究分子数据对于揭示癌症复杂的生物学机制至关重要,从而能够实现更有效的诊断、治疗和预防策略。然而,通过整合所有可用的多组学数据来预测患者的预后仍然是一个研究不足的方向。本文提出了SeNMo,一个在33种癌症类型的多组学数据上训练的基础模型。SeNMo特别擅长处理具有高宽度和低长度属性的多组学数据。我们使用来自GDC的包含33个癌症部位的泛癌多组学数据,训练SeNMo用于患者的总生存期预测任务。训练数据包括基因表达、DNA甲基化、miRNA表达、DNA突变、蛋白质表达模式和临床数据。SeNMo在两个独立的队列上进行了验证:Moffitt癌症中心和CPTAC肺鳞状细胞癌。我们使用C-Index评估了模型在预测患者总生存期方面的性能。SeNMo在训练阶段表现始终良好,在GDC公共数据上的验证C-Index为0.76。在测试阶段,SeNMo在预留测试集上的C-Index为0.758。该模型在泛癌测试队列上对原发癌症类型进行分类的任务中,平均准确率为99.8%。SeNMo在预测患者原发癌症类型的分类任务中表现出强大的性能。SeNMo进一步证明了其在多组学数据中预测三级淋巴结构方面的显著性能,展示了其在癌症类型、分子数据类型和临床终点方面的泛化能力。

🔬 方法详解

问题定义:论文旨在解决利用多组学数据预测癌症患者预后的问题。现有方法在整合多种组学数据时面临挑战,尤其是在数据维度高、样本量小的情况下,容易出现过拟合,且难以捕捉不同癌症类型之间的共性特征。因此,需要一种能够有效处理高维数据、学习泛化能力强的模型。

核心思路:论文的核心思路是利用自归一化神经网络(Self-Normalizing Neural Networks, SNNs)构建一个基础模型(Foundation Model),即SeNMo。SNNs具有自归一化的特性,可以有效缓解梯度消失和梯度爆炸问题,从而更好地处理高维数据。通过在大量泛癌多组学数据上进行预训练,SeNMo可以学习到癌症相关的通用表征,从而提高在特定癌症类型或临床任务上的性能。

技术框架:SeNMo的整体框架包括数据预处理、模型训练和模型评估三个主要阶段。首先,对来自GDC的多组学数据(包括基因表达、DNA甲基化、miRNA表达、DNA突变、蛋白质表达和临床数据)进行预处理,例如数据清洗、缺失值填充和标准化。然后,使用SNNs构建SeNMo模型,并在预处理后的多组学数据上进行训练,目标是预测患者的总生存期。最后,在独立的验证集(Moffitt癌症中心和CPTAC肺鳞状细胞癌)上评估SeNMo的性能,并与其他基线方法进行比较。

关键创新:SeNMo的关键创新在于将自归一化神经网络(SNNs)应用于泛癌多组学数据的分析。SNNs的自归一化特性使其能够更好地处理高维数据,并学习到更鲁棒的特征表示。此外,SeNMo作为一个基础模型,可以通过在大量数据上进行预训练,学习到癌症相关的通用知识,从而提高在不同癌症类型和临床任务上的泛化能力。与传统的机器学习方法相比,SeNMo能够更好地整合多种组学数据,并捕捉不同癌症类型之间的共性特征。

关键设计:SeNMo的网络结构基于多层感知机(MLP),每一层都使用SNNs。SNNs的关键在于使用Scaled Exponential Linear Units (SELUs)作为激活函数,并对权重进行特定的初始化,以保证网络在训练过程中保持自归一化。损失函数采用C-Index损失,用于优化模型在总生存期预测任务上的性能。在训练过程中,使用Adam优化器进行参数更新,并采用早停策略防止过拟合。具体的超参数设置(如学习率、批大小、网络层数和每层神经元数量)需要根据具体的数据集和任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SeNMo在泛癌多组学数据上表现出强大的性能。在GDC公共数据上的验证C-Index为0.76,在预留测试集上的C-Index为0.758。在泛癌测试队列上对原发癌症类型进行分类的任务中,平均准确率为99.8%。这些结果表明,SeNMo能够有效地整合多组学数据,并准确地预测患者的预后和癌症类型。

🎯 应用场景

SeNMo具有广泛的应用前景,可用于癌症诊断、预后预测和治疗方案选择。通过整合多组学数据,SeNMo可以更准确地识别癌症亚型,预测患者的生存期,并为个性化治疗提供依据。此外,SeNMo还可以用于药物研发,例如筛选潜在的药物靶点和预测药物的疗效。未来,SeNMo有望成为癌症精准医疗的重要工具。

📄 摘要(原文)

Multi-omics research has enhanced our understanding of cancer heterogeneity and progression. Investigating molecular data through multi-omics approaches is crucial for unraveling the complex biological mechanisms underlying cancer, thereby enabling more effective diagnosis, treatment, and prevention strategies. However, predicting patient outcomes through the integration of all available multi-omics data is still an under-study research direction. Here, we present SeNMo, a foundation model that has been trained on multi-omics data across 33 cancer types. SeNMo is particularly efficient in handling multi-omics data characterized by high-width and low-length attributes. We trained SeNMo for the task of overall survival of patients using pan-cancer multi-omics data involving 33 cancer sites from the GDC. The training multi-omics data includes gene expression, DNA methylation, miRNA expression, DNA mutations, protein expression modalities, and clinical data. SeNMo was validated on two independent cohorts: Moffitt Cancer Center and CPTAC lung squamous cell carcinoma. We evaluated the model's performance in predicting patient's overall survival using the C-Index. SeNMo performed consistently well in the training regime, reflected by the validation C-Index of 0.76 on GDC's public data. In the testing regime, SeNMo performed with a C-Index of 0.758 on a held-out test set. The model showed an average accuracy of 99.8% on the task of classifying the primary cancer type on the pan-cancer test cohort. SeNMo demonstrated robust performance on the classification task of predicting the primary cancer type of patients. SeNMo further demonstrated significant performance in predicting tertiary lymph structures from multi-omics data, showing generalizability across cancer types, molecular data types, and clinical endpoints.