Data-Driven Priors for Uncertainty-Aware Deterioration Risk Prediction with Multimodal Data
作者: L. Julián Lechuga López, Tim G. J. Rudner, Farah E. Shamout
分类: cs.LG
发布日期: 2026-03-09
备注: 24 pages, 5 figures, 8 tables
💡 一句话要点
MedCertAIn:利用多模态数据和数据驱动先验提升风险预测的可靠性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态融合 不确定性量化 风险预测 数据驱动先验 贝叶斯神经网络 临床决策支持 自监督学习
📋 核心要点
- 现有机器学习模型在临床预测中缺乏可靠的不确定性估计,限制了其在实际临床决策支持系统中的应用。
- 论文提出MedCertAIn框架,利用多模态数据和数据驱动先验,提升模型在住院风险预测中的性能和可靠性。
- 实验结果表明,MedCertAIn在预测性能和不确定性量化方面,显著优于现有确定性基线和贝叶斯方法。
📝 摘要(中文)
为了将预测模型安全地集成到临床决策支持系统中,模型需要具备表达预测不确定性的能力。然而,当前的机器学习模型通常缺乏可靠的不确定性估计,尤其是在多模态数据融合的场景下。本文提出了一个名为$ exttt{MedCertAIn}$的预测不确定性框架,该框架利用多模态临床数据进行住院风险预测,以提高模型性能和可靠性。$ exttt{MedCertAIn}$采用混合策略,利用自监督潜在表示中的跨模态相似性和模态特定的数据损坏,设计了数据驱动的神经网络参数先验。在公开数据集MIMIC-IV和MIMIC-CXR上,使用临床时间序列和胸部X光图像对模型进行了训练和评估。结果表明,与最先进的确定性基线方法和其他贝叶斯方法相比,$ exttt{MedCertAIn}$显著提高了预测性能和不确定性量化。这些发现表明,数据驱动的先验在推进用于高风险临床应用的鲁棒、不确定性感知AI工具方面具有很大的潜力。
🔬 方法详解
问题定义:论文旨在解决临床风险预测中模型不确定性量化不足的问题,尤其是在利用多模态数据(如临床时间序列和胸部X光图像)进行预测时。现有方法难以提供可靠的不确定性估计,导致模型在实际临床应用中存在风险。
核心思路:论文的核心思路是利用数据驱动的先验知识来约束神经网络的参数,从而提高模型的不确定性估计能力。通过结合跨模态相似性和模态特定的数据损坏,学习更鲁棒的特征表示,并将其融入到贝叶斯框架中。
技术框架:MedCertAIn框架包含以下主要模块:1) 多模态数据编码器,用于提取临床时间序列和胸部X光图像的特征表示;2) 自监督学习模块,用于学习跨模态数据的共享潜在空间;3) 数据损坏模块,用于模拟模态特定的噪声和不确定性;4) 贝叶斯神经网络,利用数据驱动的先验知识进行风险预测和不确定性量化。
关键创新:最重要的技术创新点在于数据驱动的先验设计。传统的贝叶斯方法通常使用固定的先验分布,而MedCertAIn通过自监督学习和数据损坏,从数据中学习先验分布,使其更适应特定的临床任务和数据集。这种数据驱动的方法能够更好地捕捉数据中的不确定性,并提高模型的不确定性估计能力。
关键设计:在自监督学习模块中,使用了对比学习损失函数,鼓励模型学习跨模态数据的相似性表示。在数据损坏模块中,采用了随机遮蔽和噪声注入等技术,模拟模态特定的数据缺失和噪声。贝叶斯神经网络使用了变分推理方法进行训练,并使用蒙特卡洛采样来估计预测的不确定性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MedCertAIn在MIMIC-IV和MIMIC-CXR数据集上显著提高了预测性能和不确定性量化。与确定性基线方法相比,MedCertAIn在AUROC和F1-score等指标上取得了显著提升。此外,MedCertAIn的不确定性估计与实际预测误差具有更强的相关性,表明其能够更准确地量化预测的不确定性。
🎯 应用场景
该研究成果可应用于临床决策支持系统,辅助医生进行住院患者的风险评估和预测。通过提供可靠的不确定性估计,帮助医生更好地理解模型的预测结果,并做出更明智的决策。未来,该方法可以扩展到其他医疗领域,如疾病诊断、药物研发等,为构建更安全、可靠的AI医疗系统提供技术支持。
📄 摘要(原文)
Safe predictions are a crucial requirement for integrating predictive models into clinical decision support systems. One approach for ensuring trustworthiness is to enable models' ability to express their uncertainty about individual predictions. However, current machine learning models frequently lack reliable uncertainty estimation, hindering real-world deployment. This is further observed in multimodal settings, where the goal is to enable effective information fusion. In this work, we propose $\texttt{MedCertAIn}$, a predictive uncertainty framework that leverages multimodal clinical data for in-hospital risk prediction to improve model performance and reliability. We design data-driven priors over neural network parameters using a hybrid strategy that considers cross-modal similarity in self-supervised latent representations and modality-specific data corruptions. We train and evaluate the models with such priors using clinical time-series and chest X-ray images from the publicly-available datasets MIMIC-IV and MIMIC-CXR. Our results show that $\texttt{MedCertAIn}$ significantly improves predictive performance and uncertainty quantification compared to state-of-the-art deterministic baselines and alternative Bayesian methods. These findings highlight the promise of data-driven priors in advancing robust, uncertainty-aware AI tools for high-stakes clinical applications.