When Are Multimodal Predictions Biologically Supported? A Diagnostic Evaluation Framework

作者: Dylan Steiner, Gustavo Arango-Argoty, Gerald Sun, Etai Jacob

分类: cs.LG, stat.ML

发布日期: 2026-05-29

💡 一句话要点

DECAT：肿瘤多模态预测生物学合理性诊断评估框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 生物学解释性 肿瘤预测 后验评估 混淆因素

📋 核心要点

现有肿瘤多模态模型预测准确，但缺乏对模型学习到的生物学信息的深入诊断，无法区分共享生物学、单模态生物学或虚假相关性。
DECAT框架通过零参考指标和规则决策，将多模态表示划分为四种诊断场景，无需混淆因素信息，评估模型学习到的生物学信息的合理性。
DECAT在合成数据和TCGA真实数据上验证，揭示了现有模型在共享生物学检测中的缺陷，并能检测到传统方法无法识别的混淆因素。

📝 摘要（中文）

肿瘤学中的多模态模型可以产生准确的预测，但准确的预测并不能揭示模型是否学习到了跨模态共享的生物学信息、仅限于一种模态的生物学信息，或者反映混淆因素而非真实生物学的虚假相关性。我们引入DECAT，这是一个模型无关的后验评估框架，它使用五个零参考指标和一个基于规则的决策程序，将多模态表示分类为给定任务和模态的四种诊断场景。该框架作用于学习到的表示，不需要知道存在哪些特定的混淆因素，并在证据不足时返回不确定。我们在跨越四个多模态模型类别（超过2,500个训练表示）的合成数据以及来自8,979名TCGA患者的真实数据上验证了DECAT，评估了多模态嵌入和五个预训练的病理学基础模型。纠缠模型（例如，CLIP）实现了接近完美的共享生物学检测，但在大多数不存在共享生物学的情况下，错误地声称真实基础模型嵌入存在共享生物学。这种错误声明率随着混淆强度的增加而增加，因此更大的队列和更强的表示会产生更自信但仍然不正确的诊断。应用于多模态TCGA嵌入和五个没有配对RNA的病理学基础模型，DECAT检测到AUROC无法检测到的混淆，而无需混淆标签，这已通过事后分层证实。

🔬 方法详解

问题定义：论文旨在解决肿瘤多模态模型预测结果缺乏生物学解释性的问题。现有方法仅关注预测准确率，无法判断模型是否真正学习到了有意义的生物学信息，还是仅仅利用了数据中的虚假相关性或混淆因素。这限制了多模态模型在临床实践中的应用，因为医生需要理解模型预测背后的生物学机制才能信任并使用这些模型。

核心思路：论文的核心思路是设计一个模型无关的后验评估框架，该框架能够诊断多模态模型学习到的表示，并将其分类为四种诊断场景：共享生物学、单模态生物学、虚假相关性和不确定。该框架通过分析学习到的表示，无需知道具体的混淆因素，从而评估模型学习到的生物学信息的合理性。

技术框架：DECAT框架包含以下主要模块：1) 表示提取：从多模态模型中提取学习到的表示。2) 零参考指标计算：计算五个零参考指标，这些指标衡量了不同模态之间表示的相似性和独立性。3) 规则决策：基于计算出的指标，使用一组预定义的规则将表示分类为四种诊断场景。4) 结果评估：在合成数据和真实数据上验证DECAT框架的性能。

关键创新：DECAT的关键创新在于其模型无关性和无需混淆因素信息的特性。传统的生物学解释方法通常需要领域专家手动标注混淆因素，而DECAT能够自动检测混淆，并评估模型学习到的生物学信息的合理性。此外，DECAT的诊断框架能够提供更细粒度的解释，帮助研究人员理解模型学习到的不同类型的生物学信息。

关键设计：DECAT使用五个零参考指标来衡量不同模态之间表示的相似性和独立性。这些指标包括：1) 互信息：衡量不同模态之间共享的信息量。2) 距离相关性：衡量不同模态之间表示的线性相关性。3) 典型相关分析：寻找不同模态之间最相关的线性组合。4) 表征相似性分析：衡量不同模态之间表示的相似性。5) 对抗性判别器：训练一个判别器来区分不同模态的表示。基于这些指标，DECAT使用一组预定义的规则来将表示分类为四种诊断场景。

🖼️ 关键图片

📊 实验亮点

DECAT在合成数据上实现了良好的诊断性能，能够准确区分不同的诊断场景。在TCGA真实数据上，DECAT揭示了现有模型在共享生物学检测中的缺陷，并能够检测到传统方法无法识别的混淆因素。例如，DECAT发现CLIP等纠缠模型在真实数据上存在较高的错误声明率，即错误地声称存在共享生物学。

🎯 应用场景

DECAT框架可应用于肿瘤多模态模型的生物学合理性评估，帮助研究人员和临床医生理解模型预测背后的生物学机制。该框架还可以用于指导多模态模型的开发，使其能够学习到更可靠、更具解释性的生物学信息。此外，DECAT还可以扩展到其他多模态学习领域，例如自然语言处理和计算机视觉。

📄 摘要（原文）

Multimodal models in oncology can produce accurate predictions, but accurate prediction does not reveal whether the model has learned biology that is shared across modalities, biology confined to one modality, or spurious correlations that reflect confounders rather than genuine biology. We introduce DECAT, a model-agnostic post-hoc evaluation framework that classifies multimodal representations into four diagnostic scenarios for a given task and modality, using five null-referenced metrics and a rule-based decision procedure. The framework operates on learned representations, requires no knowledge of which specific confounder is present, and returns indeterminate when the evidence is insufficient. We validate DECAT on synthetic data across four multimodal model classes (over 2,500 trained representations) and on real data from 8,979 TCGA patients, evaluating both multimodal embeddings and five pretrained pathology foundation models. Entangled models (e.g., CLIP) achieve near-perfect shared biology detection but falsely claim shared biology in the majority of cases where it is absent on real foundation model embeddings. This false claim rate increases with confound strength so that larger cohorts and stronger representations produce more confident but still incorrect diagnoses. Applied to both multimodal TCGA embeddings and five pathology foundation models without paired RNA, DECAT detects confounding invisible to AUROC without requiring the confounder labels, as confirmed by post-hoc stratification.

When Are Multimodal Predictions Biologically Supported? A Diagnostic Evaluation Framework

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理