Revisiting 2D Foundation Models for Scalable 3D Medical Image Classification
作者: Han Liu, Bogdan Georgescu, Yanbo Zhang, Youngjin Yoo, Michael Baumgartner, Riqiang Gao, Jianing Wang, Gengyan Zhao, Eli Gibson, Dorin Comaniciu, Sasa Grbic
分类: cs.CV
发布日期: 2025-12-15
备注: 1st Place in VLM3D Challenge
💡 一句话要点
AnyMC3D:利用2D预训练模型进行可扩展的3D医学图像分类。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D医学图像分类 基础模型 迁移学习 2D预训练模型 轻量级插件 多视图学习 可解释性
📋 核心要点
- 现有3D医学图像分类方法面临数据偏差、适应性差和任务覆盖不足等挑战,限制了其在多样化临床场景中的应用。
- AnyMC3D通过利用2D预训练模型,并添加轻量级插件进行任务适配,实现了高效且可扩展的3D医学图像分类。
- 实验表明,AnyMC3D在12个涵盖不同病理、解剖和模态的任务上取得了SOTA性能,并在VLM3D挑战赛中获得第一名。
📝 摘要(中文)
三维医学图像分类对于现代临床工作流程至关重要。医学基础模型(FMs)已成为扩展到新任务的一种有前途的方法,但目前的研究存在三个关键缺陷:数据分布偏差、次优的适应性和任务覆盖不足。本文针对这些缺陷,提出了一种可扩展的3D分类器AnyMC3D,该分类器由2D FMs改进而来。我们的方法通过在单个冻结骨干网络之上添加轻量级插件(每个任务约1M参数)来有效地扩展到新任务。这种通用框架还支持多视图输入、辅助像素级监督和可解释的热图生成。我们建立了一个包含12个任务的综合基准,涵盖不同的病理、解剖结构和模态,并系统地分析了最先进的3D分类技术。我们的分析揭示了关键见解:(1)有效的适应性对于释放FM的潜力至关重要,(2)如果适当调整,通用FM可以匹配医学专用FM,以及(3)基于2D的方法超过了用于3D分类的3D架构。我们首次证明了使用单个可扩展框架在各种应用中实现最先进性能的可行性(包括在VLM3D挑战赛中获得第一名),从而无需单独的任务特定模型。
🔬 方法详解
问题定义:现有的3D医学图像分类方法,特别是基于3D架构的模型,通常需要大量的3D标注数据进行训练,且泛化能力有限。医学领域的数据分布存在偏差,针对特定任务训练的模型难以适应新的任务。此外,医学专用FM的构建和训练成本高昂。
核心思路:本文的核心思路是利用在海量自然图像上预训练的2D基础模型,通过有效的迁移学习和轻量级的任务特定适配,将其应用于3D医学图像分类任务。这种方法可以有效利用2D预训练模型的强大特征提取能力,并降低对3D标注数据的需求。
技术框架:AnyMC3D框架主要包含以下几个模块:1) 2D预训练骨干网络(例如,ViT或ResNet),该网络被冻结以保持其通用特征提取能力;2) 轻量级的任务特定插件,用于将2D特征适配到3D空间,并进行分类预测;3) 多视图输入模块,允许模型从多个角度观察3D图像;4) 辅助像素级监督模块,利用分割信息来提升模型的特征学习能力;5) 热图生成模块,用于提供模型预测的可解释性。
关键创新:该方法最重要的创新点在于,它证明了通过有效的适配,通用的2D预训练模型可以超越专门为医学图像设计的3D模型。通过轻量级的插件,AnyMC3D能够快速适应新的3D医学图像分类任务,而无需从头开始训练模型。
关键设计:AnyMC3D的关键设计包括:1) 使用冻结的2D骨干网络,避免了灾难性遗忘,并保留了通用特征;2) 设计轻量级的任务特定插件(约1M参数),以实现高效的参数调整;3) 采用多视图输入,从不同角度捕捉3D图像的信息;4) 使用辅助像素级监督,利用分割信息来指导特征学习;5) 设计可解释的热图生成方法,帮助医生理解模型的预测结果。
🖼️ 关键图片
📊 实验亮点
AnyMC3D在包含12个不同任务的综合基准测试中取得了最先进的性能,证明了其在不同病理、解剖结构和模态上的泛化能力。尤其值得一提的是,AnyMC3D在VLM3D挑战赛中获得了第一名,超越了所有其他参赛模型。实验结果表明,通过有效的适配,2D预训练模型可以胜过专门为医学图像设计的3D模型。
🎯 应用场景
AnyMC3D具有广泛的应用前景,可用于多种3D医学图像分类任务,例如疾病诊断、肿瘤分期、器官分割等。该框架能够降低开发和部署医学图像分析模型的成本,加速临床工作流程,并为医生提供更准确、更可靠的诊断依据。未来,AnyMC3D可以进一步扩展到其他医学影像模态和任务,例如病灶检测、预后预测等。
📄 摘要(原文)
3D medical image classification is essential for modern clinical workflows. Medical foundation models (FMs) have emerged as a promising approach for scaling to new tasks, yet current research suffers from three critical pitfalls: data-regime bias, suboptimal adaptation, and insufficient task coverage. In this paper, we address these pitfalls and introduce AnyMC3D, a scalable 3D classifier adapted from 2D FMs. Our method scales efficiently to new tasks by adding only lightweight plugins (about 1M parameters per task) on top of a single frozen backbone. This versatile framework also supports multi-view inputs, auxiliary pixel-level supervision, and interpretable heatmap generation. We establish a comprehensive benchmark of 12 tasks covering diverse pathologies, anatomies, and modalities, and systematically analyze state-of-the-art 3D classification techniques. Our analysis reveals key insights: (1) effective adaptation is essential to unlock FM potential, (2) general-purpose FMs can match medical-specific FMs if properly adapted, and (3) 2D-based methods surpass 3D architectures for 3D classification. For the first time, we demonstrate the feasibility of achieving state-of-the-art performance across diverse applications using a single scalable framework (including 1st place in the VLM3D challenge), eliminating the need for separate task-specific models.