Multimodal Survival Modeling and Fairness-Aware Clinical Machine Learning for 5-Year Breast Cancer Risk Prediction

📄 arXiv: 2602.21648v1 📥 PDF

作者: Toktam Khatibi

分类: cs.LG, q-bio.QM

发布日期: 2026-02-25


💡 一句话要点

提出一种多模态生存建模框架,用于乳腺癌五年生存风险预测,并关注公平性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 乳腺癌 生存预测 多模态学习 临床机器学习 公平性 CoxNet XGBoost

📋 核心要点

  1. 现有临床风险预测模型在实际应用中存在校准不足、可迁移性差和亚组差异等问题,尤其是在高维多模态癌症数据中。
  2. 提出一种多模态机器学习框架,整合临床变量、转录组和拷贝数变异特征,用于乳腺癌五年生存风险预测。
  3. 实验结果表明,该框架在生存期预测方面表现出色,并在不同亚组中保持了较好的公平性。

📝 摘要(中文)

临床风险预测模型在实际应用中表现不佳,原因在于校准不足、可迁移性有限以及亚组差异。这些挑战在高维多模态癌症数据集中更加突出,这些数据集的特征交互复杂,且呈现p >> n的结构。本文提出了一个完全可复现的多模态机器学习框架,用于预测乳腺癌患者的五年总生存期,该框架整合了临床变量以及来自METABRIC队列的高维转录组和拷贝数变异(CNA)特征。在基于方差和稀疏性的过滤和降维后,使用分层训练/验证/测试集进行模型训练,并基于验证集进行超参数调优。比较了两种生存分析方法:弹性网络正则化的Cox模型(CoxNet)和使用XGBoost实现的梯度提升生存树模型。CoxNet提供嵌入式特征选择和稳定估计,而XGBoost则捕获非线性效应和高阶交互。性能评估使用时间依赖的ROC曲线下面积(AUC)、平均精度(AP)、校准曲线、Brier分数和bootstrap 95%置信区间。CoxNet在验证集和测试集上分别实现了98.3和96.6的AUC,以及90.1和80.4的AP。XGBoost在验证集和测试集上分别实现了98.6和92.5的AUC,以及92.5和79.9的AP。公平性诊断表明,在不同年龄组、雌激素受体状态、分子亚型和绝经状态下,判别能力稳定。这项工作引入了一个面向治理的多模态生存框架,强调高维临床机器学习的校准、公平性审计、鲁棒性和可重复性。

🔬 方法详解

问题定义:论文旨在解决乳腺癌五年生存风险预测问题,现有方法在高维多模态数据下面临挑战,包括特征交互复杂、p >> n结构导致模型过拟合、以及在不同亚组中预测性能不一致(公平性问题)。

核心思路:论文的核心思路是利用多模态数据(临床变量、转录组、拷贝数变异)的互补信息,通过特征选择和降维,构建鲁棒且公平的生存预测模型。选择CoxNet和XGBoost两种模型,分别侧重于线性关系和非线性关系的建模,并进行比较。

技术框架:整体框架包括数据预处理、特征选择与降维、模型训练与验证、性能评估和公平性诊断。数据预处理包括方差和稀疏性过滤。特征选择与降维旨在降低数据维度,减少过拟合风险。模型训练使用分层训练/验证/测试集,并基于验证集进行超参数调优。性能评估使用AUC、AP、校准曲线和Brier分数。公平性诊断评估模型在不同亚组中的表现。

关键创新:论文的关键创新在于:1) 提出了一个可复现的多模态生存建模框架,强调了可重复性;2) 关注了模型在不同亚组中的公平性,并进行了详细的公平性审计;3) 整合了多种模态的数据,充分利用了数据的互补信息。

关键设计:论文的关键设计包括:1) 使用弹性网络正则化的Cox模型(CoxNet)进行特征选择和稳定估计;2) 使用XGBoost捕获非线性效应和高阶交互;3) 使用时间依赖的ROC曲线下面积(AUC)和平均精度(AP)评估模型性能;4) 使用bootstrap方法计算95%置信区间,评估模型鲁棒性。

📊 实验亮点

实验结果表明,CoxNet在验证集和测试集上分别实现了98.3和96.6的AUC,以及90.1和80.4的AP。XGBoost在验证集和测试集上分别实现了98.6和92.5的AUC,以及92.5和79.9的AP。此外,公平性诊断表明,模型在不同年龄组、雌激素受体状态、分子亚型和绝经状态下,判别能力稳定。

🎯 应用场景

该研究成果可应用于临床决策支持系统,帮助医生更准确地评估乳腺癌患者的五年生存风险,从而制定更个性化的治疗方案。此外,该框架强调的公平性审计方法,有助于减少算法偏见,确保所有患者都能获得公平的医疗服务。未来,该方法可以推广到其他癌症类型的生存预测,并整合更多模态的数据,例如影像数据。

📄 摘要(原文)

Clinical risk prediction models often underperform in real-world settings due to poor calibration, limited transportability, and subgroup disparities. These challenges are amplified in high-dimensional multimodal cancer datasets characterized by complex feature interactions and a p >> n structure. We present a fully reproducible multimodal machine learning framework for 5-year overall survival prediction in breast cancer, integrating clinical variables with high-dimensional transcriptomic and copy-number alteration (CNA) features from the METABRIC cohort. After variance- and sparsity-based filtering and dimensionality reduction, models were trained using stratified train/validation/test splits with validation-based hyperparameter tuning. Two survival approaches were compared: an elastic-net regularized Cox model (CoxNet) and a gradient-boosted survival tree model implemented using XGBoost. CoxNet provides embedded feature selection and stable estimation, whereas XGBoost captures nonlinear effects and higher-order interactions. Performance was assessed using time-dependent area under the ROC curve (AUC), average precision (AP), calibration curves, Brier score, and bootstrapped 95 percent confidence intervals. CoxNet achieved validation and test AUCs of 98.3 and 96.6, with AP values of 90.1 and 80.4. XGBoost achieved validation and test AUCs of 98.6 and 92.5, with AP values of 92.5 and 79.9. Fairness diagnostics showed stable discrimination across age groups, estrogen receptor status, molecular subtypes, and menopausal state. This work introduces a governance-oriented multimodal survival framework emphasizing calibration, fairness auditing, robustness, and reproducibility for high-dimensional clinical machine learning.