Good Rankings, Wrong Probabilities: A Calibration Audit of Multimodal Cancer Survival Models

📄 arXiv: 2604.04239 📥 PDF

作者: Sajad Ghawami

分类: cs.LG, cs.AI, bio.QM

发布日期: 2026-04-07


💡 一句话要点

多模态癌症生存模型校准性审计:揭示排序性能良好但概率预测失准问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 癌症生存预测 多模态学习 校准性 组织病理学图像 基因组数据 深度学习 临床决策支持

📋 核心要点

  1. 现有基于多模态深度学习的癌症生存预测模型,虽然排序性能良好,但生存概率的校准性未经验证,可能导致临床误判。
  2. 该研究对多种多模态WSI-基因组生存模型进行严格的校准性审计,使用fold-level 1-calibration方法评估模型预测概率的准确性。
  3. 实验结果表明,许多模型未能通过校准测试,即使具有高C-index,其预测概率也可能存在偏差,提示需要更可靠的评估指标。

📝 摘要(中文)

多模态深度学习模型融合了全切片组织病理学图像和基因组数据,在癌症生存预测方面取得了很强的区分性能,以一致性指数(C-index)衡量。然而,这些模型导出的生存概率(无论是直接来自原生输出还是通过标准事后重建)是否经过校准,在很大程度上仍未得到检验。我们进行了首次系统的fold-level 1-calibration审计,针对多模态WSI-基因组生存架构,评估了原生离散时间生存输出(实验A:TCGA-BRCA上的3个模型)和来自标量风险评分的Breslow重建生存曲线(实验B:跨5个TCGA癌症类型的11个架构)。在实验A中,所有三个模型在大多数fold上都未能通过1-calibration(15个fold-level测试中有12个在Benjamini-Hochberg校正后被拒绝)。在全部290个fold-level测试中,166个在Benjamini-Hochberg校正后拒绝了中位事件时间正确校准的零假设(FDR = 0.05)。MCAT在GBMLGG上实现了0.817的C-index,但在所有五个fold上都未能通过1-calibration。基于Gating的融合与更好的校准相关;双线性融合和连接融合则不然。事后Platt缩放降低了评估范围内的错误校准(例如,MCAT:5/5 folds失败降至2/5),而不影响区分度。一致性指数不足以评估用于临床的生存模型。

🔬 方法详解

问题定义:论文旨在解决多模态深度学习癌症生存预测模型校准性不足的问题。现有方法主要关注区分性能(如C-index),而忽略了预测生存概率的准确性。高C-index并不意味着良好的校准性,这可能导致临床决策的偏差。

核心思路:论文的核心思路是对现有模型进行严格的校准性审计,通过统计检验来评估模型预测的生存概率与实际观察到的生存概率之间的一致性。如果模型预测的概率与实际情况不符,则认为模型未校准。

技术框架:该研究主要分为两个实验:实验A评估原生离散时间生存输出的校准性,实验B评估基于标量风险评分重建的生存曲线的校准性。对于每个模型和数据集,采用fold-level交叉验证,并在每个fold上进行校准性检验。使用Benjamini-Hochberg校正来控制多重比较的错误发现率(FDR)。

关键创新:该研究首次对多模态WSI-基因组生存模型进行了系统的校准性审计。它揭示了即使具有良好区分性能的模型也可能存在校准性问题,强调了在临床应用中评估校准性的重要性。此外,研究还发现不同的融合策略对校准性有影响,并探索了Platt缩放等事后校准方法。

关键设计:研究使用了1-calibration检验来评估模型在特定时间点(中位事件时间)的校准性。Benjamini-Hochberg校正用于控制多重假设检验中的FDR。研究比较了不同融合策略(如Gating、双线性融合、连接融合)对校准性的影响。Platt缩放作为一种事后校准方法被应用,以减少预测概率的偏差。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,许多多模态癌症生存预测模型虽然具有较高的C-index(如MCAT在GBMLGG上达到0.817),但在校准性测试中表现不佳。在全部290个fold-level测试中,有166个拒绝了正确校准的零假设(FDR = 0.05)。Gating-based融合与更好的校准相关,而Platt缩放可以在不影响区分度的情况下降低错误校准。

🎯 应用场景

该研究成果对临床决策支持系统具有重要意义。通过评估和改进癌症生存预测模型的校准性,可以提高预测的可靠性,从而帮助医生做出更准确的诊断和治疗方案。未来的研究可以探索更有效的校准方法,并将其应用于更广泛的临床场景。

📄 摘要(原文)

Multimodal deep learning models that fuse whole-slide histopathology images with genomic data have achieved strong discriminative performance for cancer survival prediction, as measured by the concordance index. Yet whether the survival probabilities derived from these models - either directly from native outputs or via standard post-hoc reconstruction - are calibrated remains largely unexamined.We conduct, to our knowledge, the first systematic fold-level 1-calibration audit of multimodal WSI-genomics survival architectures, evaluating native discrete-time survival outputs (Experiment A: 3 models on TCGA-BRCA) and Breslow-reconstructed survival curves from scalar risk scores (Experiment B: 11 architectures across 5 TCGA cancer types). In Experiment A, all three models fail 1-calibration on a majority of folds (12 of 15 fold-level tests reject after Benjamini-Hochberg correction). Across the full 290 fold-level tests, 166 reject the null of correct calibration at the median event time after Benjamini-Hochberg correction (FDR = 0.05). MCAT achieves C-index 0.817 on GBMLGG yet fails 1-calibration on all five folds.Gating-based fusion is associated with better calibration; bilinear and concatenation fusion are not. Post-hoc Platt scaling reduces miscalibration at the evaluated horizon (e.g., MCAT: 5/5 folds failing to 2/5) without affecting discrimination. The concordance index alone is insufficient for evaluating survival models intended for clinical use.