Retrieval-augmented Few-shot Medical Image Segmentation with Foundation Models
作者: Lin Zhao, Xiao Chen, Eric Z. Chen, Yikang Liu, Terrence Chen, Shanhui Sun
分类: cs.CV
发布日期: 2024-08-16 (更新: 2025-04-01)
💡 一句话要点
提出基于DINOv2和SAM2的检索增强少样本医学图像分割方法,无需微调。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 少样本学习 医学图像分割 检索增强 DINOv2 SAM2 预训练模型 零样本学习
📋 核心要点
- 现有少样本医学图像分割方法泛化性差,且依赖目标域训练,而直接应用SAM等通用模型则需微调。
- 该方法利用DINOv2提取特征并检索相似样本,构建记忆库,通过SAM2的记忆注意力机制引导分割。
- 实验表明,该方法在多个医学图像分割任务上表现优异,无需重新训练或微调,具有良好的泛化性。
📝 摘要(中文)
医学图像分割对于临床决策至关重要,但标注数据的稀缺性带来了重大挑战。少样本分割(FSS)方法显示出潜力,但通常需要在目标域上进行训练,并且难以在不同模态之间泛化。类似地,将Segment Anything Model (SAM)等基础模型应用于医学成像也存在局限性,包括需要微调和领域特定的适配。为了解决这些问题,我们提出了一种新方法,该方法采用DINOv2和Segment Anything Model 2 (SAM 2)进行检索增强的少样本医学图像分割。我们的方法使用DINOv2的特征作为查询,从有限的标注数据中检索相似的样本,然后将这些样本编码为记忆并存储在记忆库中。借助SAM 2的记忆注意力机制,该模型利用这些记忆作为条件来生成目标图像的精确分割。我们在三个医学图像分割任务上评估了我们的框架,证明了其优越的性能和跨各种模态的泛化能力,而无需任何重新训练或微调。总的来说,该方法为少样本医学图像分割提供了一种实用且有效的解决方案,并具有作为临床应用中有价值的标注工具的巨大潜力。
🔬 方法详解
问题定义:医学图像分割任务面临标注数据稀缺的挑战,传统的少样本学习方法难以在不同模态的医学图像上泛化,且需要针对特定任务进行微调。直接应用通用分割模型(如SAM)在医学图像上效果不佳,也需要额外的领域适配和微调,增加了应用成本。
核心思路:利用预训练的DINOv2模型提取图像的通用特征,并使用这些特征在少量标注数据中检索相似的样本。将检索到的相似样本作为“记忆”提供给分割模型,引导模型更好地分割目标图像。核心在于利用预训练模型的强大特征提取能力和检索增强机制,实现无需微调的少样本分割。
技术框架:整体框架包含三个主要模块:1) 特征提取模块:使用DINOv2提取目标图像和支持图像的特征;2) 检索模块:使用目标图像的特征在支持图像的特征库中检索最相似的样本;3) 分割模块:使用SAM2,并将检索到的相似样本的特征作为条件输入,利用其记忆注意力机制引导分割。
关键创新:该方法最大的创新在于将预训练的视觉Transformer模型(DINOv2)和通用分割模型(SAM2)结合,通过检索增强的方式实现了无需微调的少样本医学图像分割。与传统方法相比,无需针对特定任务进行训练,具有更好的泛化性和实用性。
关键设计:DINOv2用于提取图像的全局特征,作为检索的依据。SAM2的记忆注意力机制允许模型有效地利用检索到的相似样本的信息,从而提高分割精度。具体实现中,需要选择合适的相似度度量方法(例如余弦相似度)进行检索,并设计合适的记忆融合方式,将检索到的特征融入到SAM2的输入中。
🖼️ 关键图片
📊 实验亮点
该方法在三个医学图像分割任务上取得了优异的性能,无需任何重新训练或微调,展现了良好的泛化能力。实验结果表明,该方法显著优于现有的少样本分割方法,为医学图像分割提供了一种实用且有效的解决方案。
🎯 应用场景
该研究成果可应用于多种医学图像分割任务,例如肿瘤分割、器官分割等,辅助医生进行诊断和治疗计划制定。该方法无需大量标注数据和模型微调,降低了应用门槛,有望加速AI技术在医疗领域的普及。未来可进一步探索与其他模态信息的融合,提升分割精度和鲁棒性。
📄 摘要(原文)
Medical image segmentation is crucial for clinical decision-making, but the scarcity of annotated data presents significant challenges. Few-shot segmentation (FSS) methods show promise but often require training on the target domain and struggle to generalize across different modalities. Similarly, adapting foundation models like the Segment Anything Model (SAM) for medical imaging has limitations, including the need for finetuning and domain-specific adaptation. To address these issues, we propose a novel method that adapts DINOv2 and Segment Anything Model 2 (SAM 2) for retrieval-augmented few-shot medical image segmentation. Our approach uses DINOv2's feature as query to retrieve similar samples from limited annotated data, which are then encoded as memories and stored in memory bank. With the memory attention mechanism of SAM 2, the model leverages these memories as conditions to generate accurate segmentation of the target image. We evaluated our framework on three medical image segmentation tasks, demonstrating superior performance and generalizability across various modalities without the need for any retraining or finetuning. Overall, this method offers a practical and effective solution for few-shot medical image segmentation and holds significant potential as a valuable annotation tool in clinical applications.