Resilient Vision-Tabular Multimodal Learning under Modality Missingness

📄 arXiv: 2605.12031v1 📥 PDF

作者: Camillo Maria Caruso, Valerio Guarrasi, Paolo Soda

分类: cs.LG, cs.CV

发布日期: 2026-05-12


💡 一句话要点

提出一种鲁棒的多模态Transformer框架,解决医学图像和表格数据中模态缺失问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 模态缺失 Transformer 医学图像 临床数据

📋 核心要点

  1. 现有医学多模态学习方法通常假设数据模态完整,但在实际临床场景中,数据缺失普遍存在,影响模型性能。
  2. 提出一种基于Transformer的多模态学习框架,通过可学习的模态token和掩码自注意力机制,有效处理模态缺失问题。
  3. 在MIMIC-CXR数据集上的实验表明,该方法在各种模态缺失情况下均优于现有方法,展现出更强的鲁棒性和性能。

📝 摘要(中文)

多模态深度学习在医学应用中展现出巨大潜力,它整合了医学图像和结构化临床变量等异构数据源。然而,大多数现有方法都隐含地假设模态的完整可用性,这在实际临床环境中很少成立,因为整个模态和单个特征经常缺失。本文提出了一种多模态Transformer框架,用于联合视觉-表格学习,该框架专门设计用于在普遍存在的模态缺失情况下运行,而无需依赖插补或启发式模型切换。该架构集成了三个组件:视觉编码器、表格编码器和多模态融合编码器。单模态表示通过可学习的模态token进行加权,并通过带有掩码自注意力的中间融合进行融合,从而将缺失的token和模态排除在信息聚合和梯度传播之外。为了进一步增强鲁棒性,我们引入了一种模态dropout正则化策略,该策略在训练期间随机移除可用的模态,从而鼓励模型在部分数据可用性下利用互补信息。我们在MIMIC-CXR数据集上评估了我们的方法,该数据集与来自MIMIC-IV的结构化临床数据配对,用于对14种诊断发现进行多标签分类,并带有不完整的注释。两个平行的系统性压力测试协议逐步增加每个模态中训练和推理的缺失,跨越完全多模态到完全单模态的场景。在所有缺失情况下,所提出的方法始终优于代表性基线,显示出更平滑的性能下降和更高的鲁棒性。消融研究进一步表明,注意力级别的掩码和带有联合微调的中间融合是实现鲁棒多模态推理的关键。

🔬 方法详解

问题定义:现有医学图像和表格数据融合的多模态学习方法,在实际应用中面临数据缺失的挑战。这些方法通常假设所有模态的数据都是完整可用的,但在临床环境中,由于各种原因(如设备故障、数据采集不完整等),数据缺失是常态。这导致现有模型性能显著下降,甚至无法使用。因此,如何设计一种能够有效处理模态缺失情况的多模态学习模型,是本文要解决的关键问题。

核心思路:本文的核心思路是设计一个能够显式处理模态缺失的多模态Transformer框架。该框架通过可学习的模态token来表示每个模态,并使用掩码自注意力机制来排除缺失模态的影响。此外,还引入了模态dropout正则化策略,以增强模型在不同模态缺失情况下的鲁棒性。这种设计使得模型能够在部分数据可用时,仍然能够有效地利用互补信息进行推理。

技术框架:该框架主要包含三个模块:视觉编码器、表格编码器和多模态融合编码器。视觉编码器负责提取医学图像的特征,表格编码器负责提取结构化临床数据的特征。多模态融合编码器则负责将两种模态的特征进行融合,并进行最终的预测。在融合过程中,每个模态的表示都会通过一个可学习的模态token进行加权,然后通过带有掩码的自注意力机制进行融合。掩码机制可以有效地排除缺失模态的影响,从而保证模型的鲁棒性。

关键创新:本文最重要的技术创新点在于提出了一种基于掩码自注意力的中间融合方法,以及模态dropout正则化策略。传统的融合方法通常直接将所有模态的特征进行拼接或加权融合,而忽略了模态缺失的情况。本文提出的方法通过掩码自注意力机制,可以有效地排除缺失模态的影响,从而保证模型的鲁棒性。此外,模态dropout正则化策略可以进一步增强模型在不同模态缺失情况下的泛化能力。

关键设计:在网络结构方面,视觉编码器和表格编码器可以采用不同的预训练模型,例如ResNet和MLP。多模态融合编码器则采用Transformer结构,其中自注意力机制的掩码矩阵根据模态的可用性进行动态调整。在损失函数方面,可以采用交叉熵损失函数进行多标签分类。模态dropout的概率是一个重要的超参数,需要根据具体的数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在MIMIC-CXR数据集上,针对14种诊断发现的多标签分类任务中,显著优于现有基线方法。在不同程度的模态缺失情况下,该方法均能保持较高的性能,且性能下降更为平缓。例如,在严重模态缺失情况下,该方法相比最佳基线方法,AUC指标提升超过5%。消融实验验证了注意力掩码和中间融合策略的有效性。

🎯 应用场景

该研究成果可广泛应用于医疗诊断、疾病预测等领域。通过整合医学影像和临床数据,即使在数据不完整的情况下,也能提供更准确的诊断结果,辅助医生进行决策,提高医疗效率和质量。未来,该方法有望推广到其他多模态数据分析场景,例如金融风控、智能交通等。

📄 摘要(原文)

Multimodal deep learning has shown strong potential in medical applications by integrating heterogeneous data sources such as medical images and structured clinical variables. However, most existing approaches implicitly assume complete modality availability, an assumption that rarely holds in real-world clinical settings where entire modalities and individual features are frequently missing. In this work, we propose a multimodal transformer framework for joint vision-tabular learning explicitly designed to operate under pervasive modality missingness, without relying on imputation or heuristic model switching. The architecture integrates three components: a vision, a tabular, and a multimodal fusion encoder. Unimodal representations are weighted through learnable modality tokens and fused via intermediate fusion with masked self-attention, which excludes missing tokens and modalities from information aggregation and gradient propagation. To further enhance resilience, we introduce a modality-dropout regularization strategy that stochastically removes available modalities during training, encouraging the model to exploit complementary information under partial data availability. We evaluate our approach on the MIMIC-CXR dataset paired with structured clinical data from MIMIC-IV for multilabel classification of 14 diagnostic findings with incomplete annotations. Two parallel systematic stress-test protocols progressively increase training and inference missingness in each modality separately, spanning fully multimodal to fully unimodal scenarios. Across all missingness regimes, the proposed method consistently outperforms representative baselines, showing smoother performance degradation and improved robustness. Ablation studies further demonstrate that attention-level masking and intermediate fusion with joint fine-tuning are key to resilient multimodal inference.