Causal Representation Learning from Multimodal Clinical Records under Non-Random Modality Missingness
作者: Zihan Liang, Ziwen Pan, Ruoxuan Xiong
分类: cs.LG, cs.CL, stat.ME
发布日期: 2025-09-21
备注: To appear in Proc. of EMNLP 2025 (18 pages)
💡 一句话要点
针对临床记录缺失场景,提出因果表征学习框架,提升多模态融合效果。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 因果表征学习 多模态融合 模态缺失非随机 临床数据 患者表征
📋 核心要点
- 临床数据中模态缺失普遍存在,且缺失模式并非随机,传统方法难以有效融合多模态信息。
- 提出一种因果表征学习框架,通过MMNAR感知的模态融合、模态重建和偏差校正,提升表征质量。
- 在MIMIC-IV和eICU数据集上,该方法在医院再入院和ICU入院预测任务中显著优于现有基线。
📝 摘要(中文)
临床笔记包含丰富的患者信息,对患者表征学习至关重要。大型语言模型的进步进一步提升了从临床文本中提取有意义表征的能力。然而,临床笔记经常缺失。例如,在MIMIC-IV数据集分析中,24.5%的患者没有出院总结。此时,可以从其他模态(如结构化数据、胸部X光片或放射报告)学习表征。然而,这些模态的可用性受临床决策影响,且因患者而异,导致模态缺失非随机(MMNAR)模式。我们提出了一个因果表征学习框架,利用观察到的数据和多模态临床记录中的信息性缺失。它包含:(1)一个MMNAR感知的模态融合组件,整合结构化数据、影像和文本,同时以缺失模式为条件,以捕捉患者健康状况和临床医生驱动的分配;(2)一个具有对比学习的模态重建组件,以确保表征学习中的语义充分性;(3)一个多任务结果预测模型,带有一个整流器,用于校正来自特定模态观察模式的残余偏差。在MIMIC-IV和eICU上的全面评估表明,相对于最强的基线,该方法始终如一地获得提升,在医院再入院预测中AUC提升高达13.8%,在ICU入院预测中提升高达13.1%。
🔬 方法详解
问题定义:论文旨在解决多模态临床记录中,由于非随机模态缺失(MMNAR)导致的患者表征学习偏差问题。现有方法通常忽略模态缺失模式,或简单地进行插补,无法有效利用缺失信息,导致学习到的表征质量下降,影响下游任务的性能。
核心思路:论文的核心思路是利用因果推断的视角,将模态缺失视为一种干预,通过建模模态缺失与患者健康状况之间的因果关系,来消除缺失模式带来的偏差。具体来说,通过MMNAR感知的模态融合,将缺失模式作为条件,学习患者的潜在健康状态表征。
技术框架:该框架包含三个主要组件:(1) MMNAR感知的模态融合组件:整合结构化数据、影像和文本信息,并以缺失模式为条件,学习患者表征。(2) 模态重建组件:利用对比学习,鼓励学习到的表征包含足够的语义信息,能够重建缺失的模态。(3) 多任务结果预测模型:使用整流器校正特定模态观察模式带来的残余偏差,提升预测准确性。
关键创新:该论文的关键创新在于:(1) 提出了一个针对MMNAR场景的因果表征学习框架,能够有效利用缺失信息,消除偏差。(2) 设计了MMNAR感知的模态融合组件,能够将缺失模式作为条件,学习患者的潜在健康状态表征。(3) 引入了模态重建组件和偏差校正机制,进一步提升了表征质量和预测准确性。
关键设计:MMNAR感知的模态融合组件使用注意力机制来融合不同模态的信息,并使用一个嵌入层来表示缺失模式。模态重建组件使用对比学习损失,鼓励学习到的表征能够重建缺失的模态。多任务结果预测模型使用一个整流器网络,根据模态观察模式来校正预测结果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在MIMIC-IV和eICU数据集上,显著优于现有基线方法。在医院再入院预测任务中,AUC提升高达13.8%,在ICU入院预测任务中,AUC提升高达13.1%。这些结果表明,该方法能够有效利用缺失信息,消除偏差,提升患者表征的质量和预测准确性。
🎯 应用场景
该研究成果可应用于临床决策支持系统,通过更准确的患者表征,提升疾病预测、风险评估和个性化治疗的效果。例如,可以用于预测患者的再入院风险、ICU入院需求,从而优化医疗资源分配,改善患者预后。该方法在处理具有复杂缺失模式的医疗数据方面具有广泛的应用前景。
📄 摘要(原文)
Clinical notes contain rich patient information, such as diagnoses or medications, making them valuable for patient representation learning. Recent advances in large language models have further improved the ability to extract meaningful representations from clinical texts. However, clinical notes are often missing. For example, in our analysis of the MIMIC-IV dataset, 24.5% of patients have no available discharge summaries. In such cases, representations can be learned from other modalities such as structured data, chest X-rays, or radiology reports. Yet the availability of these modalities is influenced by clinical decision-making and varies across patients, resulting in modality missing-not-at-random (MMNAR) patterns. We propose a causal representation learning framework that leverages observed data and informative missingness in multimodal clinical records. It consists of: (1) an MMNAR-aware modality fusion component that integrates structured data, imaging, and text while conditioning on missingness patterns to capture patient health and clinician-driven assignment; (2) a modality reconstruction component with contrastive learning to ensure semantic sufficiency in representation learning; and (3) a multitask outcome prediction model with a rectifier that corrects for residual bias from specific modality observation patterns. Comprehensive evaluations across MIMIC-IV and eICU show consistent gains over the strongest baselines, achieving up to 13.8% AUC improvement for hospital readmission and 13.1% for ICU admission.