BrainAnytime: Anatomy-Aware Cross-Modal Pretraining for Brain Image Analysis with Arbitrary Modality Availability
作者: Guangqian Yang, Tong Ding, Wenlong Hou, Yue Xun, Ye Du, Qian Niu, Shujun Wang
分类: cs.CV
发布日期: 2026-05-13
备注: Early accepted by MICCAI 2026
🔗 代码/项目: GITHUB
💡 一句话要点
BrainAnytime:解剖结构感知的跨模态预训练,用于任意模态脑影像分析
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 脑影像分析 跨模态学习 预训练模型 掩码自动编码器 模态缺失 阿尔茨海默病 医学影像 图谱引导
📋 核心要点
- 现有AI模型通常需要固定的数据模态输入,无法有效处理临床上常见的模态缺失或不完整的情况。
- BrainAnytime通过跨模态蒸馏和图谱引导的课程掩码,学习MRI和PET之间的结构-分子对应关系,并关注疾病易损的解剖结构。
- 实验结果表明,BrainAnytime在多种下游任务和模态设置下,显著优于模态特定模型和缺失模态基线。
📝 摘要(中文)
临床诊断通常遵循模态升级路径:在初步临床评估后,医生首先进行常规结构影像(如MRI),选择性地添加FLAIR或T2序列以细化鉴别诊断,并将分子影像(如淀粉样蛋白PET)保留给标准评估后仍不确定的病例。因此,观察到的患者具有异构且通常不完整的模态子集。然而,目前大多数AI模型都假定固定的数据模态作为模型输入。本文提出了BrainAnytime,一个统一的预训练框架,在来自五个数据集的34,899个3D脑部扫描上进行预训练,支持在多序列MRI和淀粉样蛋白PET的任意模态可用性下的脑影像分析。单个模型接受任何可用的影像,从单独的T1扫描到完整的多种模态检查。预训练通过跨模态蒸馏(RCMD)学习MRI和PET之间的结构-分子对应关系,并通过图谱引导的课程掩码(PACM)优先考虑疾病易损的解剖结构,所有这些都在共享的3D掩码自动编码器(Multi-MAE3D)中完成。在四个下游任务和五个临床驱动的模态设置中,BrainAnytime在大多数模态设置下,大大优于模态特定模型、缺失模态基线和大规模脑MRI预训练的基础模型。值得注意的是,在CN vs. AD和CN vs. MCI分类的平均准确率上,它分别超过了最强的缺失模态基线,相对提升了6.2%和7.0%。代码可在https://github.com/SDH-Lab/BrainAnytime获取。
🔬 方法详解
问题定义:现有脑影像分析AI模型通常假设输入模态是固定的,无法有效处理临床实践中常见的模态缺失或不完整的情况。例如,并非所有患者都会接受所有类型的MRI序列或PET扫描,这导致现有模型在实际应用中性能下降。因此,需要一个能够处理任意模态组合的统一模型。
核心思路:BrainAnytime的核心思路是通过跨模态预训练,学习不同模态(如MRI和PET)之间的内在联系,并利用解剖结构信息引导模型关注疾病相关的区域。通过这种方式,即使在某些模态缺失的情况下,模型也能利用已有的模态信息进行准确的分析。
技术框架:BrainAnytime采用一个统一的3D掩码自动编码器(Multi-MAE3D)作为基础架构。预训练过程包含两个关键模块:跨模态蒸馏(RCMD)和图谱引导的课程掩码(PACM)。RCMD用于学习MRI和PET之间的结构-分子对应关系,PACM则利用脑图谱信息,引导模型优先关注疾病易损的解剖结构。在下游任务中,该模型可以直接应用于各种模态组合的脑影像数据。
关键创新:BrainAnytime的关键创新在于其能够处理任意模态组合的脑影像数据,而无需针对特定模态组合训练不同的模型。这得益于跨模态蒸馏和图谱引导的课程掩码,使得模型能够学习不同模态之间的共享表示,并关注疾病相关的解剖结构。与现有方法相比,BrainAnytime更加灵活和通用。
关键设计:RCMD模块通过蒸馏损失函数,促使MRI模态学习PET模态的信息,从而建立跨模态的联系。PACM模块则利用脑图谱信息,计算每个体素的重要性权重,并在掩码过程中优先掩盖重要性较低的区域,从而引导模型关注疾病易损的解剖结构。Multi-MAE3D采用Transformer架构,能够有效地捕捉脑影像中的全局信息。
🖼️ 关键图片
📊 实验亮点
BrainAnytime在四个下游任务和五个临床驱动的模态设置中,显著优于模态特定模型、缺失模态基线和大规模脑MRI预训练的基础模型。在CN vs. AD和CN vs. MCI分类的平均准确率上,它分别超过了最强的缺失模态基线,相对提升了6.2%和7.0%。这些结果表明,BrainAnytime能够有效地利用不同模态的信息,并提高脑影像分析的准确性。
🎯 应用场景
BrainAnytime具有广泛的应用前景,可用于辅助临床医生进行脑部疾病的诊断和预测,例如阿尔茨海默病、轻度认知障碍等。该模型能够处理任意模态组合的脑影像数据,使其在临床实践中更加灵活和实用。此外,该模型还可以用于研究不同模态之间的关系,以及疾病对脑部结构和功能的影响。
📄 摘要(原文)
Clinical diagnostic workups typically follow a modality escalation pathway: after initial clinical evaluation, clinicians begin with routine structural imaging (e.g., MRI), selectively add sequences such as FLAIR or T2 to refine the differential, and reserve molecular imaging (e.g., amyloid-PET) for cases that remain uncertain after standard evaluation. Consequently, patients are observed with heterogeneous and often incomplete modality subsets. However, most current AI models assume fixed data modalities as the model inputs. In this paper, we present BrainAnytime, a unified pretraining framework pretrained on 34,899 3D brain scans from five datasets that support brain image analysis under arbitrary modality availability spanning multi-sequence MRI and amyloid-PET. A single model accepts whatever imaging is available, from a lone T1 scan to a full multimodal workup. Pretraining learns structural-molecular correspondences between MRI and PET via cross-modal distillation (RCMD) and prioritizes disease-vulnerable anatomy via atlas-guided curriculum masking (PACM), all within a shared 3D masked autoencoder (Multi-MAE3D). Across four downstream tasks and five clinically motivated modality settings, BrainAnytime largely outperforms modality-specific models, missing-modality baselines, and large-scale brain MRI pretrained foundation models on most modality settings. Notably, it surpasses the strongest missing-modality baselines with relative improvements of 6.2% and 7.0% in average accuracy on CN vs. AD and CN vs. MCI classification, respectively. Code is available at https://github.com/SDH-Lab/BrainAnytime.