Causal Debiasing Medical Multimodal Representation Learning with Missing Modalities

📄 arXiv: 2509.05615v1 📥 PDF

作者: Xiaoguang Zhu, Lianlong Sun, Yang Liu, Pengyi Jiang, Uma Srivatsa, Nipavan Chiamvimonvat, Vladimir Filkov

分类: cs.LG, cs.AI

发布日期: 2025-09-06

备注: Submitted to IEEE TKDE


💡 一句话要点

提出一种因果去偏的多模态医学表征学习方法,解决缺失模态带来的偏差问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 缺失模态 因果推断 医学数据挖掘 表征学习

📋 核心要点

  1. 现有医学多模态学习方法忽略了数据采集过程引入的缺失偏差和分布偏差,导致模型泛化能力受限。
  2. 该论文提出一个统一的因果去偏框架,通过缺失去混淆模块和双分支神经网络来解决上述偏差问题。
  3. 在真实数据集上的实验表明,该方法能够有效提升模型性能,并提供对数据生成过程的因果洞察。

📝 摘要(中文)

医学多模态表征学习旨在将异构临床数据整合为统一的患者表征,以支持预测建模,这是医学数据挖掘领域一项重要但具有挑战性的任务。然而,现实世界的医学数据集经常由于成本、协议或患者特定约束而存在模态缺失。现有方法主要通过从原始数据空间或特征空间中的可用观测数据中学习来解决此问题,但通常忽略了数据采集过程本身引入的潜在偏差。本文识别了两种阻碍模型泛化的偏差:由模态可用性的非随机模式导致的缺失偏差,以及由影响观测特征和结果的潜在混淆因素引起的分布偏差。为了应对这些挑战,我们对数据生成过程进行了结构因果分析,并提出了一个与现有基于直接预测的多模态学习方法兼容的统一框架。我们的方法包括两个关键组成部分:(1)一个基于后门调整来近似因果干预的缺失去混淆模块,以及(2)一个显式地将因果特征与虚假相关性分离的双分支神经网络。我们在真实世界的公共和院内数据集上评估了我们的方法,证明了其有效性和因果洞察力。

🔬 方法详解

问题定义:医学多模态表征学习面临的关键问题是如何处理数据集中普遍存在的模态缺失现象。现有方法主要关注利用现有数据进行学习,但忽略了模态缺失本身带来的偏差,例如非随机缺失模式导致的缺失偏差,以及潜在混淆因素导致的分布偏差。这些偏差会严重影响模型的泛化能力和预测准确性。

核心思路:该论文的核心思路是利用因果推断的理论框架来分析和消除模态缺失带来的偏差。通过构建数据生成过程的结构因果模型,识别出导致偏差的混淆因素,并采用因果干预的方法来消除这些混淆因素的影响,从而学习到更鲁棒和泛化的多模态表征。

技术框架:该方法包含两个主要模块:缺失去混淆模块和双分支神经网络。缺失去混淆模块利用后门调整来近似因果干预,旨在消除模态缺失带来的偏差。双分支神经网络则显式地将因果特征与虚假相关性分离,进一步提升模型的鲁棒性。整个框架可以与现有的基于直接预测的多模态学习方法兼容,易于集成和扩展。

关键创新:该论文的关键创新在于将因果推断引入到医学多模态表征学习中,并针对模态缺失问题提出了具体的因果去偏方法。与现有方法相比,该方法能够更有效地消除数据偏差,学习到更可靠的表征。此外,该方法还提供了一种理解数据生成过程的因果视角,有助于发现潜在的临床规律。

关键设计:缺失去混淆模块通过估计混淆因素对模态缺失的影响,并利用后门调整公式来消除这种影响。双分支神经网络包含一个因果分支和一个非因果分支,分别学习因果特征和虚假相关性。损失函数的设计旨在鼓励两个分支学习到互补的信息,并抑制虚假相关性的影响。具体的网络结构和参数设置需要根据具体的任务和数据集进行调整。

📊 实验亮点

该论文在真实世界的公共和院内数据集上进行了评估,实验结果表明,该方法能够显著提升多模态表征学习的性能。与现有方法相比,该方法在多个指标上取得了明显的提升,证明了其有效性和优越性。此外,该论文还通过实验验证了因果去偏模块和双分支神经网络的有效性,并提供了对数据生成过程的因果洞察。

🎯 应用场景

该研究成果可广泛应用于各种医学多模态数据分析任务,例如疾病诊断、预后预测、治疗方案推荐等。通过消除模态缺失带来的偏差,可以提高模型的准确性和可靠性,为临床决策提供更可靠的依据。此外,该方法还可以应用于其他存在数据缺失问题的领域,例如金融风控、智能交通等。

📄 摘要(原文)

Medical multimodal representation learning aims to integrate heterogeneous clinical data into unified patient representations to support predictive modeling, which remains an essential yet challenging task in the medical data mining community. However, real-world medical datasets often suffer from missing modalities due to cost, protocol, or patient-specific constraints. Existing methods primarily address this issue by learning from the available observations in either the raw data space or feature space, but typically neglect the underlying bias introduced by the data acquisition process itself. In this work, we identify two types of biases that hinder model generalization: missingness bias, which results from non-random patterns in modality availability, and distribution bias, which arises from latent confounders that influence both observed features and outcomes. To address these challenges, we perform a structural causal analysis of the data-generating process and propose a unified framework that is compatible with existing direct prediction-based multimodal learning methods. Our method consists of two key components: (1) a missingness deconfounding module that approximates causal intervention based on backdoor adjustment and (2) a dual-branch neural network that explicitly disentangles causal features from spurious correlations. We evaluated our method in real-world public and in-hospital datasets, demonstrating its effectiveness and causal insights.