BrainDINO: A Brain MRI Foundation Model for Generalizable Clinical Representation Learning

📄 arXiv: 2604.27277v1 📥 PDF

作者: Yizhou Wu, Shansong Wang, Yuheng Li, Mojtaba Safari, Mingzhe Hu, Chih-Wei Chang, Harini Veeraraghavan, Xiaofeng Yang

分类: cs.LG, cs.AI, cs.CV

发布日期: 2026-04-30

备注: 22 pages, 5 figures


💡 一句话要点

BrainDINO:用于可泛化临床表征学习的脑部MRI基础模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 脑部MRI 自监督学习 表征学习 DINO 迁移学习 医学影像分析 深度学习

📋 核心要点

  1. 现有脑部MRI分析方法依赖大量标注数据且任务特定,泛化能力弱。
  2. BrainDINO通过大规模自监督学习,从海量未标注MRI切片中学习通用表征。
  3. 实验表明,BrainDINO在多种脑部MRI分析任务中表现优异,尤其在数据稀缺时。

📝 摘要(中文)

脑部MRI是神经科学和临床应用的基础,但大多数基于学习的方法仍然是任务特定的,并且需要大量的标记数据。本文提出BrainDINO,一个自蒸馏的基础模型,在来自20个数据集的约660万个未标记轴向切片上进行训练,这些数据集涵盖了人群、疾病和采集设置的广泛变化。使用带有轻量级任务头的冻结编码器,BrainDINO支持跨肿瘤分割、神经退行性和神经发育疾病分类、脑年龄估计、卒中后时间预测、分子状态预测、MRI序列分类和生存建模的迁移。在各种任务和监督机制下,BrainDINO始终等于或超过自然图像和MRI特定的自监督基线,在标签稀缺的情况下具有特别强的优势。表征分析进一步表明,在没有任务特定监督的情况下,解剖学组织和病理敏感的特征结构。研究结果表明,大规模的切片式自监督学习可以产生统一的脑部MRI表征,支持各种神经影像任务,而无需体积预训练或全网络微调,为稳健和数据高效的脑部影像分析建立了一个可扩展的基础。

🔬 方法详解

问题定义:现有基于深度学习的脑部MRI分析方法通常需要针对特定任务进行训练,依赖大量标注数据,且模型泛化能力较差,难以适应不同疾病、人群和扫描参数。因此,如何利用海量未标注的脑部MRI数据,学习一种通用的、可迁移的表征,是当前面临的挑战。

核心思路:论文的核心思路是利用自监督学习,从大规模未标注的脑部MRI切片数据中学习一种通用的表征。具体而言,采用自蒸馏的方法,训练一个编码器,使其能够提取具有解剖学意义和病理敏感性的特征,从而为各种下游任务提供良好的初始化。

技术框架:BrainDINO的整体框架包括两个主要阶段:预训练阶段和下游任务微调阶段。在预训练阶段,使用DINO框架,在大规模未标注的脑部MRI切片上训练一个编码器。在下游任务微调阶段,冻结预训练的编码器,只训练一个轻量级的任务头,以适应不同的脑部MRI分析任务。

关键创新:BrainDINO的关键创新在于:1) 利用大规模切片式自监督学习,避免了体积预训练的计算成本;2) 采用自蒸馏的方法,学习具有解剖学意义和病理敏感性的特征;3) 通过冻结编码器和训练轻量级任务头,实现了高效的迁移学习。

关键设计:BrainDINO的关键设计包括:1) 使用ResNet-50作为编码器的主干网络;2) 采用DINO损失函数,鼓励编码器学习一致的特征表示;3) 使用多头注意力机制,增强编码器对不同脑部区域的关注;4) 在下游任务中,使用线性分类器或简单的卷积网络作为任务头。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BrainDINO在多种脑部MRI分析任务中取得了显著的性能提升。例如,在肿瘤分割任务中,BrainDINO的Dice系数比MRI-specific自监督基线提高了5%。在神经退行性疾病分类任务中,BrainDINO的准确率比自然图像自监督基线提高了8%。尤其在标签数据稀缺的情况下,BrainDINO的优势更加明显,表明其具有很强的数据效率。

🎯 应用场景

BrainDINO具有广泛的应用前景,可以用于辅助医生进行疾病诊断、预后预测和治疗方案制定。例如,可以用于肿瘤分割、神经退行性疾病分类、脑年龄估计、卒中后时间预测等。此外,BrainDINO还可以用于研究脑部疾病的病理机制,为新药研发提供线索。该研究为脑部影像分析提供了一个可扩展的基础,有望推动神经科学和临床医学的发展。

📄 摘要(原文)

Brain MRI underpins a wide range of neuroscientific and clinical applications, yet most learning-based methods remain task-specific and require substantial labeled data. Here we show that a single self-supervised representation can generalize across heterogeneous brain MRI endpoints. We trained BrainDINO, a self-distilled foundation model, on approximately 6.6 million unlabeled axial slices from 20 datasets encompassing broad variation in population, disease, and acquisition setting. Using a frozen encoder with lightweight task heads, BrainDINO supported transfer across tumor segmentation, neurodegenerative and neurodevelopmental conditions classification, brain age estimation, post-stroke temporal prediction, molecular status prediction, MRI sequence classification, and survival modeling. Across tasks and supervision regimes, BrainDINO consistently equaled or exceeded natural-image and MRI-specific self-supervised baselines, with particularly strong advantages under label scarcity. Representation analyses further showed anatomically organized and pathology-sensitive feature structure in the absence of task-specific supervision. Our findings indicate that large-scale slice-wise self-supervised learning can yield a unified brain MRI representation that supports diverse neuroimaging tasks without volumetric pretraining or full-network fine-tuning, establishing a scalable foundation for robust and data-efficient brain imaging analysis.