MultiMAE for Brain MRIs: Robustness to Missing Inputs Using Multi-Modal Masked Autoencoder

📄 arXiv: 2509.11442v2 📥 PDF

作者: Ayhan Can Erdur, Christian Beischl, Daniel Scholz, Jiazhen Pan, Benedikt Wiestler, Daniel Rueckert, Jan C Peeken

分类: cs.CV

发布日期: 2025-09-14 (更新: 2025-10-10)

备注: Official implementation: https://github.com/chris-beischl/multimae-for-brain-mri

DOI: 10.1007/978-3-032-09513-8_55


💡 一句话要点

MultiMAE用于脑部MRI:利用多模态掩码自编码器增强缺失输入的鲁棒性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多模态学习 掩码自编码器 医学影像 脑部MRI 缺失数据处理

📋 核心要点

  1. 医学影像中数据缺失是常见问题,现有深度学习模型对此鲁棒性不足,影响临床应用。
  2. 借鉴MultiMAE,提出一种多模态掩码自编码器,通过跨序列推理填补缺失信息。
  3. 实验表明,该方法在缺失数据下,分割Dice提升10.1,MCC提升0.46,显著优于基线。

📝 摘要(中文)

医学影像数据中常见的缺失输入序列对依赖完整输入数据的深度学习模型构成挑战。受MultiMAE启发,本文针对脑部MRI中的多模态、多任务学习,开发了一种掩码自编码器(MAE)范式。该方法将每个MRI序列视为一个独立的输入模态,利用一种后期融合风格的Transformer编码器来整合多序列信息(多模态),并为每个模态设置独立的解码器流以进行多任务重建。这种预训练策略引导模型学习每个模态的丰富表征,同时使其能够通过跨序列推理来处理缺失输入。最终得到一个灵活且通用的脑部MRI编码器,可以从可用输入中推断缺失序列,并适应各种下游应用。在下游分割和分类任务中,我们展示了该方法相对于MAE-ViT基线的性能和鲁棒性,在缺失输入序列的情况下,总体Dice分数绝对提高了10.1,MCC提高了0.46。实验证明了这种预训练策略的优势。代码已开源。

🔬 方法详解

问题定义:医学影像数据,特别是脑部MRI,经常存在部分序列缺失的情况,例如由于扫描时间限制、患者不配合等原因。现有的深度学习模型通常依赖于完整的输入数据,当出现缺失时,性能会显著下降,这限制了它们在实际临床环境中的应用。

核心思路:本文的核心思路是利用多模态掩码自编码器(MultiMAE)进行预训练,使模型能够从可用的MRI序列中推断出缺失的序列。通过掩码部分输入,并让模型重建这些被掩盖的部分,从而迫使模型学习不同模态之间的关联性,提高其对缺失数据的鲁棒性。

技术框架:整体框架包括一个Transformer编码器和多个解码器。编码器接收来自不同MRI序列的输入,并使用掩码策略随机遮盖部分序列。编码器提取多模态特征后,每个模态对应一个独立的解码器,用于重建该模态的输入。这种结构允许模型学习每个模态的独立表征,同时利用跨模态信息进行推理。

关键创新:关键创新在于将MultiMAE的思想应用于3D医学影像,并针对脑部MRI的特点进行了优化。通过多模态的掩码自编码器预训练,模型能够学习到更鲁棒的特征表示,从而更好地处理缺失数据。此外,采用后期融合的Transformer编码器,能够有效地整合来自不同序列的信息。

关键设计:采用了高比例的掩码策略,例如遮盖75%的输入序列,以迫使模型学习更强的表征能力。损失函数包括重建损失,用于衡量模型重建输入序列的准确程度。Transformer编码器和解码器的具体层数、隐藏层维度等参数根据实验结果进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法在下游分割和分类任务中均取得了显著的提升。在缺失输入序列的情况下,该方法在分割任务中获得了10.1%的Dice score绝对提升,在分类任务中获得了0.46的MCC提升,显著优于MAE-ViT基线。这些结果表明,该方法能够有效地处理缺失数据,并提高模型的鲁棒性和泛化能力。

🎯 应用场景

该研究成果可应用于临床辅助诊断,例如在脑部疾病的诊断和治疗中,即使MRI序列不完整,也能提供可靠的影像分析结果。此外,该方法还可以推广到其他医学影像模态和疾病类型,具有广泛的应用前景。未来,可以进一步探索如何将该方法与临床信息相结合,以提高诊断的准确性和效率。

📄 摘要(原文)

Missing input sequences are common in medical imaging data, posing a challenge for deep learning models reliant on complete input data. In this work, inspired by MultiMAE [2], we develop a masked autoencoder (MAE) paradigm for multi-modal, multi-task learning in 3D medical imaging with brain MRIs. Our method treats each MRI sequence as a separate input modality, leveraging a late-fusion-style transformer encoder to integrate multi-sequence information (multi-modal) and individual decoder streams for each modality for multi-task reconstruction. This pretraining strategy guides the model to learn rich representations per modality while also equipping it to handle missing inputs through cross-sequence reasoning. The result is a flexible and generalizable encoder for brain MRIs that infers missing sequences from available inputs and can be adapted to various downstream applications. We demonstrate the performance and robustness of our method against an MAE-ViT baseline in downstream segmentation and classification tasks, showing absolute improvement of $10.1$ overall Dice score and $0.46$ MCC over the baselines with missing input sequences. Our experiments demonstrate the strength of this pretraining strategy. The implementation is made available.