NeuroRAD-FM: A Foundation Model for Neuro-Oncology with Distributionally Robust Training
作者: Moinak Bhattacharya, Angelica P. Kurtz, Fabio M. Iwamoto, Prateek Prasanna, Gagandeep Singh
分类: cs.CV
发布日期: 2025-09-18
💡 一句话要点
NeuroRAD-FM:基于分布鲁棒训练的神经肿瘤学Foundation Model
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 神经肿瘤学 Foundation Model 分布鲁棒优化 分子标记物预测 生存预测
📋 核心要点
- 现有神经肿瘤学Foundation Model在异构数据和肿瘤复杂性下泛化能力受限,尤其在罕见分子标记物预测方面表现不佳。
- 论文提出一种神经肿瘤学特定FM,结合分布鲁棒优化(DRO)缓解站点和类别不平衡,提升跨机构泛化能力。
- 实验结果表明,该方法在分子预测和生存预测方面均有提升,尤其在罕见标记物预测上表现突出,并提高了模型的可解释性。
📝 摘要(中文)
神经肿瘤学由于数据的异质性和肿瘤的复杂性,对机器学习提出了独特的挑战,限制了Foundation Model(FM)在不同队列中的泛化能力。现有的FM在预测罕见分子标记物方面表现不佳,而这些标记物对于治疗反应和风险分层至关重要。为了解决这些问题,我们开发了一个神经肿瘤学特定的FM,它具有分布鲁棒的损失函数,能够准确估计肿瘤表型,同时保持跨机构的泛化能力。我们在多机构脑肿瘤MRI上预训练了自监督骨干网络(BYOL、DINO、MAE、MoCo),并应用分布鲁棒优化(DRO)来缓解站点和类别不平衡。下游任务包括常见标记物(MGMT、IDH1、1p/19q、EGFR)、罕见改变(ATRX、TP53、CDKN2A/2B、TERT)、连续标记物(Ki-67、TP53)的分子分类,以及在UCSF、UPenn和CUIMC的IDH1野生型胶质母细胞瘤的总体生存预测。我们的方法改进了分子预测,并减少了站点特定的嵌入差异。在CUIMC,平均平衡准确率从0.744提高到0.785,AUC从0.656提高到0.676,对于代表性不足的终点增益最大(CDKN2A/2B准确率0.86到0.92,AUC 0.73到0.92;ATRX AUC 0.69到0.82;Ki-67准确率0.60到0.69)。对于生存率,c-index在所有站点都有所提高:CUIMC 0.592到0.597,UPenn 0.647到0.672,UCSF 0.600到0.627。Grad-CAM突出了肿瘤和肿瘤周围区域,证实了可解释性。总的来说,将FM与DRO结合使用可以产生更具站点不变性的表示,提高常见和罕见标记物的预测,并增强生存区分能力,强调了前瞻性验证以及纵向和干预信号整合以推进精准神经肿瘤学的必要性。
🔬 方法详解
问题定义:神经肿瘤学领域面临数据异质性和肿瘤复杂性的挑战,导致现有的Foundation Model在跨机构数据上的泛化能力不足。此外,现有模型在预测罕见分子标记物时性能较差,而这些标记物对于治疗反应和风险分层至关重要。
核心思路:论文的核心思路是构建一个神经肿瘤学特定的Foundation Model,并结合分布鲁棒优化(DRO)来缓解站点和类别不平衡问题。通过DRO,模型能够学习到更具鲁棒性的特征表示,从而提高在不同机构数据上的泛化能力,并改善对罕见分子标记物的预测性能。
技术框架:该方法首先在多机构脑肿瘤MRI数据上预训练自监督骨干网络,包括BYOL、DINO、MAE和MoCo等。然后,应用分布鲁棒优化(DRO)来缓解站点和类别不平衡。最后,在下游任务中,对常见和罕见分子标记物进行分类,并进行生存预测。整体流程包括预训练、DRO优化和下游任务微调三个阶段。
关键创新:该论文的关键创新在于将Foundation Model与分布鲁棒优化相结合,从而构建了一个更具鲁棒性和泛化能力的神经肿瘤学模型。与传统的Foundation Model相比,该方法能够更好地处理数据分布不平衡问题,并提高对罕见分子标记物的预测性能。
关键设计:在预训练阶段,使用了多种自监督学习方法,以学习到更丰富的特征表示。在DRO优化阶段,使用了基于Wasserstein距离的鲁棒优化方法,以最小化最坏情况下的损失。在下游任务中,使用了标准的分类和生存分析方法。具体的损失函数和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在CUIMC数据集上,平均平衡准确率从0.744提高到0.785,AUC从0.656提高到0.676。尤其在罕见标记物预测上提升显著,例如CDKN2A/2B的准确率从0.86提高到0.92,AUC从0.73提高到0.92,ATRX的AUC从0.69提高到0.82。生存预测方面,c-index在所有站点均有提升。
🎯 应用场景
该研究成果可应用于精准神经肿瘤学领域,辅助医生进行肿瘤诊断、分子分型、治疗方案制定和预后评估。通过提高罕见分子标记物的预测准确性,有助于为患者提供更个性化的治疗方案。未来,该方法有望整合纵向和干预信号,进一步提升临床应用价值。
📄 摘要(原文)
Neuro-oncology poses unique challenges for machine learning due to heterogeneous data and tumor complexity, limiting the ability of foundation models (FMs) to generalize across cohorts. Existing FMs also perform poorly in predicting uncommon molecular markers, which are essential for treatment response and risk stratification. To address these gaps, we developed a neuro-oncology specific FM with a distributionally robust loss function, enabling accurate estimation of tumor phenotypes while maintaining cross-institution generalization. We pretrained self-supervised backbones (BYOL, DINO, MAE, MoCo) on multi-institutional brain tumor MRI and applied distributionally robust optimization (DRO) to mitigate site and class imbalance. Downstream tasks included molecular classification of common markers (MGMT, IDH1, 1p/19q, EGFR), uncommon alterations (ATRX, TP53, CDKN2A/2B, TERT), continuous markers (Ki-67, TP53), and overall survival prediction in IDH1 wild-type glioblastoma at UCSF, UPenn, and CUIMC. Our method improved molecular prediction and reduced site-specific embedding differences. At CUIMC, mean balanced accuracy rose from 0.744 to 0.785 and AUC from 0.656 to 0.676, with the largest gains for underrepresented endpoints (CDKN2A/2B accuracy 0.86 to 0.92, AUC 0.73 to 0.92; ATRX AUC 0.69 to 0.82; Ki-67 accuracy 0.60 to 0.69). For survival, c-index improved at all sites: CUIMC 0.592 to 0.597, UPenn 0.647 to 0.672, UCSF 0.600 to 0.627. Grad-CAM highlighted tumor and peri-tumoral regions, confirming interpretability. Overall, coupling FMs with DRO yields more site-invariant representations, improves prediction of common and uncommon markers, and enhances survival discrimination, underscoring the need for prospective validation and integration of longitudinal and interventional signals to advance precision neuro-oncology.