ENSAM: an efficient foundation model for interactive segmentation of 3D medical images
作者: Elias Stenhede, Agnar Martin Bjørnstad, Arian Ranjbar
分类: cs.CV
发布日期: 2025-09-19
💡 一句话要点
ENSAM:一种高效的三维医学图像交互分割基础模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 三维医学图像分割 交互式分割 深度学习 SegResNet Muon优化器
📋 核心要点
- 现有的三维医学图像分割方法通常需要大量的标注数据和计算资源,限制了其在数据稀缺和计算资源有限场景下的应用。
- ENSAM通过结合SegResNet编码器、提示编码器和掩码解码器,并引入潜在交叉注意力、相对位置编码和归一化注意力等机制,实现高效的三维医学图像交互分割。
- 实验结果表明,ENSAM在有限的数据和计算资源下,能够取得与现有方法相当甚至更优的性能,并且相对位置编码和Muon优化器能够显著提升收敛速度和分割质量。
📝 摘要(中文)
本文提出了一种轻量级的、可提示的通用三维医学图像分割模型ENSAM(Equivariant, Normalized, Segment Anything Model)。ENSAM结合了基于SegResNet的编码器、提示编码器和掩码解码器,采用U-Net风格的架构,并使用潜在交叉注意力、相对位置编码、归一化注意力和Muon优化器进行训练。ENSAM旨在以有限的数据和计算预算实现良好的性能,仅使用来自多种模态(CT、MRI、PET、超声、显微镜)的不到5000个volume,在单个32 GB GPU上于6小时内从头开始训练。在CVPR 2025 Foundation Models for Interactive 3D Biomedical Image Segmentation Challenge中,ENSAM在多模态三维医学图像的隐藏测试集上进行了评估,获得了2.404的DSC AUC、2.266的NSD AUC、0.627的最终DSC和0.597的最终NSD,优于两个先前发布的基线模型(VISTA3D、SAM-Med3D),并与第三个模型(SegVol)相匹配,在最终DSC方面超过了SegVol,但在其他三个指标上落后。在挑战赛的coreset track中,ENSAM在总共10个方法中排名第5,并且在所有未使用预训练权重的方法中排名第1。消融研究证实,我们使用的相对位置编码和Muon优化器都显著加快了收敛速度并提高了分割质量。
🔬 方法详解
问题定义:论文旨在解决三维医学图像交互分割问题,现有方法通常需要大量标注数据和计算资源,并且难以适应不同模态的医学图像。因此,如何设计一个轻量级、高效且通用的三维医学图像分割模型是一个挑战。
核心思路:论文的核心思路是构建一个基于U-Net架构的编码器-解码器模型,并引入提示编码器来实现交互式分割。通过使用相对位置编码和归一化注意力来提高模型的分割精度和泛化能力。此外,使用Muon优化器来加速模型的训练过程。
技术框架:ENSAM模型主要由以下几个模块组成:1) 基于SegResNet的编码器,用于提取三维医学图像的特征;2) 提示编码器,用于编码用户的交互提示信息(例如,点击或边界框);3) 掩码解码器,用于生成分割掩码;4) 潜在交叉注意力模块,用于融合图像特征和提示信息。整个模型采用U-Net风格的架构,通过跳跃连接将编码器的特征传递到解码器,以提高分割精度。
关键创新:ENSAM的关键创新点在于:1) 提出了一个轻量级的、可提示的三维医学图像分割模型,能够在有限的数据和计算资源下实现良好的性能;2) 引入了相对位置编码和归一化注意力,提高了模型的分割精度和泛化能力;3) 使用了Muon优化器,加速了模型的训练过程。与现有方法相比,ENSAM更加高效、通用,并且能够更好地适应不同模态的医学图像。
关键设计:ENSAM的关键设计包括:1) 使用SegResNet作为编码器,以提取更丰富的图像特征;2) 引入相对位置编码,以更好地捕捉三维空间信息;3) 使用归一化注意力,以提高模型的泛化能力;4) 使用Muon优化器,以加速模型的训练过程。此外,论文还对模型的参数进行了精细的调整,以获得最佳的性能。
🖼️ 关键图片
📊 实验亮点
ENSAM在CVPR 2025 Foundation Models for Interactive 3D Biomedical Image Segmentation Challenge中取得了优异的成绩,在隐藏测试集上获得了2.404的DSC AUC、2.266的NSD AUC、0.627的最终DSC和0.597的最终NSD,优于VISTA3D和SAM-Med3D,并在最终DSC上超过了SegVol。消融研究表明,相对位置编码和Muon优化器能够显著提升收敛速度和分割质量。
🎯 应用场景
ENSAM具有广泛的应用前景,可用于辅助医生进行疾病诊断、手术规划和治疗评估。例如,可以利用ENSAM对CT或MRI图像中的肿瘤进行分割,从而帮助医生更准确地评估肿瘤的大小和位置。此外,ENSAM还可以用于开发智能医疗设备,例如自动化的手术导航系统。
📄 摘要(原文)
We present ENSAM (Equivariant, Normalized, Segment Anything Model), a lightweight and promptable model for universal 3D medical image segmentation. ENSAM combines a SegResNet-based encoder with a prompt encoder and mask decoder in a U-Net-style architecture, using latent cross-attention, relative positional encoding, normalized attention, and the Muon optimizer for training. ENSAM is designed to achieve good performance under limited data and computational budgets, and is trained from scratch on under 5,000 volumes from multiple modalities (CT, MRI, PET, ultrasound, microscopy) on a single 32 GB GPU in 6 hours. As part of the CVPR 2025 Foundation Models for Interactive 3D Biomedical Image Segmentation Challenge, ENSAM was evaluated on hidden test set with multimodal 3D medical images, obtaining a DSC AUC of 2.404, NSD AUC of 2.266, final DSC of 0.627, and final NSD of 0.597, outperforming two previously published baseline models (VISTA3D, SAM-Med3D) and matching the third (SegVol), surpassing its performance in final DSC but trailing behind in the other three metrics. In the coreset track of the challenge, ENSAM ranks 5th of 10 overall and best among the approaches not utilizing pretrained weights. Ablation studies confirm that our use of relative positional encodings and the Muon optimizer each substantially speed up convergence and improve segmentation quality.