Towards Brain MRI Foundation Models for the Clinic: Findings from the FOMO25 Challenge

📄 arXiv: 2604.11679v1 📥 PDF

作者: Asbjørn Munk, Stefano Cerri, Vardan Nersesjan, Christian Hedeager Krag, Jakob Ambsdorf, Pablo Rocamora García, Julia Machnio, Peirong Liu, Suhyun Ahn, Nasrin Akbari, Yasmina Al Khalil, Kimberly Amador, Sina Amirrajab, Tal Arbel, Meritxell Bach Cuadra, Ujjwal Baid, Bhakti Baheti, Jaume Banus, Kamil Barbierik, Christoph Brune, Yansong Bu, Baptiste Callard, Yuhan Chen, Cornelius Crijnen, Corentin Dancette, Peter Drotar, Prasad Dutande, Nils D. Forkert, Saurabh Garg, Jakub Gazda, Matej Gazda, Benoît Gérin, Partha Ghosh, Weikang Gong, Pedro M. Gordaliza, Sam Hashemi, Tobias Heimann, Fucang Jia, Jiexin Jiang, Emily Kaczmarek, Chris Kang, Seung Kwan Kang, Mohammad Khazaei, Julien Khlaut, Petros Koutsouvelis, Jae Sung Lee, Yuchong Li, Mengye Lyu, Mingchen Ma, Anant Madabhushi, Klaus H. Maier-Hein, Pierre Manceron, Andrés Martínez Mora, Moona Mazher, Felix Meister, Nataliia Molchanova, Steven A. Niederer, Leonard Nürnberg, Jinah Park, Abdul Qayyum, Jonas Richiardi, Antoine Saporta, Branislav Setlak, Ning Shen, Justin Szeto, Constantin Ulrich, Puru Vaish, Vibujithan Vigneshwaran, Leroy Volmer, Zihao Wang, Siqi Wei, Anthony Winder, Jelmer M. Wolterink, Maxence Wynen, Chang Yang, Si Young Yie, Mostafa Mehdipour Ghazi, Akshay Pai, Espen Jimenez Solem, Sebastian Nørgaard Llambias, Mikael Boesen, Michael Eriksen Benros, Juan Eugenio Iglesias, Mads Nielsen

分类: cs.CV

发布日期: 2026-04-13


💡 一句话要点

FOMO25挑战赛:探索面向临床脑部MRI的Foundation Model

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 脑部MRI Foundation Model 自监督学习 临床应用 领域泛化

📋 核心要点

  1. 临床脑部MRI分析面临数据异构和标注成本高的挑战,限制了自动化分析的部署。
  2. FOMO25挑战赛旨在通过提供大规模临床数据和标准化评估流程,促进脑部MRI的Foundation Model研究。
  3. 实验结果表明,自监督预训练能有效提升模型在临床数据上的泛化能力,且小型模型表现优异。

📝 摘要(中文)

临床脑部MRI自动分析面临根本挑战:临床数据异构且噪声大,高质量标签获取成本高昂。自监督学习(SSL)可以通过利用临床工作流程中产生的大量未标记数据来训练鲁棒的 extit{foundation model},从而以最少的监督适应领域外数据。然而,脑部MRI的foundation model的开发受到小型预训练数据集和专注于高质量研究级数据的领域内基准测试的限制。为了解决这一差距,我们在MICCAI 2025上组织了FOMO25挑战赛。FOMO25为参与者提供了一个大型预训练数据集FOMO60K,并在few-shot和领域外设置中评估了直接来自临床工作流程的数据模型。任务涵盖梗塞分类、脑膜瘤分割和脑年龄回归,并考虑了在FOMO60K上训练的模型(方法track)和任何数据(开放track)。来自16个团队的19个foundation model使用标准化的容器化pipeline进行了评估。结果表明:(a)自监督预训练提高了领域转移下临床数据的泛化能力, extit{领域外}训练的最强模型超过了 extit{领域内}训练的监督基线。(b)没有单一的预训练目标能够使所有任务受益:MAE有利于分割,混合重建-对比目标有利于分类,并且(c)小型预训练模型取得了良好的性能,而扩大模型规模和训练持续时间并没有产生可靠的效益。

🔬 方法详解

问题定义:论文旨在解决临床脑部MRI分析中,由于数据异构性高、噪声大以及高质量标注数据稀缺,导致模型泛化能力差的问题。现有方法通常依赖于小规模、高质量的研究数据,难以直接应用于真实的临床场景,痛点在于领域适应性不足。

核心思路:论文的核心思路是利用自监督学习(SSL)方法,在大规模未标注的临床MRI数据上进行预训练,从而学习到通用的图像特征表示。这种方法旨在使模型能够更好地适应不同来源、不同质量的临床数据,并减少对标注数据的依赖。

技术框架:FOMO25挑战赛提供了一个标准化的评估框架,包括大规模的预训练数据集(FOMO60K)和多个下游任务(梗塞分类、脑膜瘤分割、脑年龄回归)。参与者可以使用FOMO60K或任何其他数据进行模型训练,并通过容器化的pipeline进行评估。评估指标包括Dice系数(分割)、AUC(分类)和MAE(回归)。

关键创新:论文的关键创新在于强调了在真实临床数据上进行Foundation Model的预训练和评估的重要性。与以往研究主要关注高质量研究数据不同,FOMO25挑战赛直接使用临床数据,更贴近实际应用场景。此外,论文还发现,不同的自监督预训练目标对不同的下游任务有不同的影响,需要根据具体任务进行选择。

关键设计:挑战赛中,不同的团队采用了不同的自监督预训练方法,包括MAE(Masked Autoencoders)、对比学习以及混合重建-对比目标。实验结果表明,MAE在分割任务上表现较好,而混合重建-对比目标在分类任务上表现更优。此外,论文还发现,小型预训练模型也能取得良好的性能,表明模型规模并非越大越好,需要根据数据量和任务复杂度进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FOMO25挑战赛的结果表明,自监督预训练能够显著提升模型在临床MRI数据上的泛化能力,尤其是在领域转移的情况下。领域外训练的最强模型甚至超过了领域内训练的监督基线。此外,研究还发现,不同的预训练目标对不同的任务有不同的影响,且小型预训练模型也能取得良好的性能。

🎯 应用场景

该研究成果可应用于临床脑部MRI的自动分析,例如辅助医生进行疾病诊断、病灶分割和预后评估。通过利用大规模未标注数据进行预训练,可以降低对标注数据的依赖,提高模型在不同临床场景下的泛化能力,从而加速AI技术在医疗领域的落地。

📄 摘要(原文)

Clinical deployment of automated brain MRI analysis faces a fundamental challenge: clinical data is heterogeneous and noisy, and high-quality labels are prohibitively costly to obtain. Self-supervised learning (SSL) can address this by leveraging the vast amounts of unlabeled data produced in clinical workflows to train robust \textit{foundation models} that adapt out-of-domain with minimal supervision. However, the development of foundation models for brain MRI has been limited by small pretraining datasets and in-domain benchmarking focused on high-quality, research-grade data. To address this gap, we organized the FOMO25 challenge as a satellite event at MICCAI 2025. FOMO25 provided participants with a large pretraining dataset, FOMO60K, and evaluated models on data sourced directly from clinical workflows in few-shot and out-of-domain settings. Tasks covered infarct classification, meningioma segmentation, and brain age regression, and considered both models trained on FOMO60K (method track) and any data (open track). Nineteen foundation models from sixteen teams were evaluated using a standardized containerized pipeline. Results show that (a) self-supervised pretraining improves generalization on clinical data under domain shift, with the strongest models trained \textit{out-of-domain} surpassing supervised baselines trained \textit{in-domain}. (b) No single pretraining objective benefits all tasks: MAE favors segmentation, hybrid reconstruction-contrastive objectives favor classification, and (c) strong performance was achieved by small pretrained models, and improvements from scaling model size and training duration did not yield reliable benefits.