From 100,000+ images to winning the first brain MRI foundation model challenges: Sharing lessons and models
作者: Pedro M. Gordaliza, Jaume Banus, Benoît Gérin, Maxence Wynen, Nataliia Molchanova, Jonas Richiardi, Meritxell Bach Cuadra
分类: cs.CV, cs.AI, cs.LG
发布日期: 2026-01-19
备注: Work presented at the SSL3D Challenge (1st place, ResEnc-L track) and FOMO Challenge (1st place, Methods track) on Brain MRI Foundation Models at MICCAI 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于U-Net CNN的脑MRI分析方法,在SSL3D和FOMO25挑战赛中获胜
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 脑MRI分析 U-Net CNN 自监督学习 医学图像分割 深度学习
📋 核心要点
- 医学图像分析面临放射学任务的特殊挑战,需要专门的基础模型。
- 论文提出一种基于U-Net CNN的解决方案,结合解剖先验和神经影像领域知识。
- 该方案在SSL3D和FOMO25脑MRI挑战赛中获得第一,训练速度更快,模型更小。
📝 摘要(中文)
为克服放射学任务的独特挑战,开发医学图像分析的基础模型至关重要。MICCAI 2025举办了首届针对3D脑MRI的此类挑战赛,即SSL3D和FOMO25。我们的解决方案在这两项竞赛的赛道中均排名第一。它依赖于U-Net CNN架构,并结合了利用解剖先验知识和神经影像领域知识的策略。值得注意的是,我们的模型训练速度比同类基于Transformer的方法快1-2个数量级,并且体积小10倍。模型可在以下网址获取:https://github.com/jbanusco/BrainFM4Challenges。
🔬 方法详解
问题定义:现有基于Transformer的方法在3D脑MRI分析中计算成本高昂,模型体积庞大,训练时间长,难以满足实际应用的需求。论文旨在开发一种更高效、更轻量级的脑MRI分析基础模型。
核心思路:利用U-Net CNN架构的优势,结合解剖先验知识和神经影像领域知识,设计一种高效的脑MRI分析模型。U-Net在医学图像分割领域表现出色,CNN相比Transformer计算复杂度更低。
技术框架:整体框架基于U-Net CNN架构,包括编码器和解码器两部分。编码器负责提取图像特征,解码器负责重建图像或进行分割。在训练过程中,利用大量脑MRI图像进行自监督学习,学习图像的内在结构和特征表示。
关键创新:关键创新在于将U-Net CNN架构与解剖先验知识和神经影像领域知识相结合。通过引入解剖先验,可以更好地约束模型的学习过程,提高模型的泛化能力。此外,利用神经影像领域知识可以更好地设计模型的损失函数和网络结构,从而提高模型的性能。与现有基于Transformer的方法相比,该方法计算成本更低,模型体积更小,训练速度更快。
关键设计:模型的具体设计细节包括:U-Net的具体层数和每层的通道数;损失函数的选择,例如可以使用Dice loss或交叉熵损失函数;数据增强策略,例如可以使用随机旋转、平移和缩放等方法;优化器的选择,例如可以使用Adam或SGD优化器;学习率的设置等。此外,还可以根据具体的任务需求,对U-Net的结构进行修改和调整。
📊 实验亮点
该方法在SSL3D和FOMO25脑MRI挑战赛中均获得第一名,证明了其有效性。与基于Transformer的方法相比,该方法的训练速度快1-2个数量级,模型体积小10倍,显著提高了计算效率。这些结果表明,基于U-Net CNN的脑MRI分析方法具有很大的潜力。
🎯 应用场景
该研究成果可应用于多种脑MRI分析任务,例如脑肿瘤分割、脑组织分割、脑疾病诊断等。该模型可以作为基础模型,通过微调应用于不同的下游任务,从而提高医学图像分析的效率和准确性。此外,该研究还可以促进医学图像分析领域的发展,为开发更高效、更智能的医学图像分析系统提供新的思路。
📄 摘要(原文)
Developing Foundation Models for medical image analysis is essential to overcome the unique challenges of radiological tasks. The first challenges of this kind for 3D brain MRI, SSL3D and FOMO25, were held at MICCAI 2025. Our solution ranked first in tracks of both contests. It relies on a U-Net CNN architecture combined with strategies leveraging anatomical priors and neuroimaging domain knowledge. Notably, our models trained 1-2 orders of magnitude faster and were 10 times smaller than competing transformer-based approaches. Models are available here: https://github.com/jbanusco/BrainFM4Challenges.