Data Adaptive Few-shot Multi Label Segmentation with Foundation Model

📄 arXiv: 2410.09759v1 📥 PDF

作者: Gurunath Reddy, Dattesh Shanbhag, Deepa Anand

分类: cs.CV

发布日期: 2024-10-13


💡 一句话要点

提出基于Foundation Model的数据自适应少样本多标签分割方法,提升医学图像分割性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 少样本学习 医学图像分割 Foundation Model 数据自适应 多标签分割

📋 核心要点

  1. 现有少样本分割方法在医学图像上表现不佳,且对图像匹配度要求高,难以应对临床数据的复杂变化。
  2. 提出基于Foundation Model的适配器,用于单标签和多标签的定位和分割,以提升模型的泛化能力。
  3. 实验证明,该方法在2D和3D医学图像分割任务中,相较于现有方法,具有更好的性能和鲁棒性。

📝 摘要(中文)

图像分割和定位的精确标注成本高昂,使得少样本算法具有吸引力。虽然已经涌现出一些先进的少样本分割方法,包括基于文本提示的方法,但在医学图像上的性能并不理想。利用基于Vision Transformer (ViT) 的Foundation Model的亚像素级特征来识别相似的感兴趣区域 (RoI),已被证明对于医学图像的单样本分割和定位非常有效。然而,这些方法依赖于模板图像和测试图像良好匹配的假设,并且简单的相关性足以获得对应关系。实际上,由于患者姿势变化、同一模态内的协议差异,甚至使用单个模板图像扩展到3D数据,这种方法在临床数据中可能无法推广。此外,对于多标签任务,RoI识别必须按顺序执行。本文提出基于Foundation Model (FM) 的适配器,用于单标签和多标签定位和分割,以解决这些问题。我们证明了该方法在2D和3D数据的多个分割和定位任务中的有效性,以及在具有不同姿势的临床数据中的有效性,并与最先进的少样本分割方法进行了评估。

🔬 方法详解

问题定义:现有基于Foundation Model的少样本分割方法依赖于模板图像和测试图像的高度匹配,在临床数据中,由于患者姿势变化、成像协议差异等因素,图像匹配度难以保证,导致分割性能下降。此外,对于多标签分割任务,需要顺序地进行RoI识别,效率较低。

核心思路:利用Foundation Model强大的特征提取能力,学习数据自适应的适配器,将Foundation Model的通用特征转化为特定任务所需的特征表示,从而提高模型对不同临床数据的泛化能力。针对多标签分割问题,设计能够并行处理多个标签的适配器。

技术框架:该方法基于预训练的Vision Transformer (ViT) 等Foundation Model,构建适配器模块。整体流程包括:1) 使用Foundation Model提取图像特征;2) 通过适配器模块将通用特征转化为特定分割任务所需的特征;3) 使用分割头进行像素级别的分类,得到分割结果。对于多标签分割,可以设计多个并行的适配器和分割头,分别负责不同标签的分割。

关键创新:核心创新在于提出了数据自适应的适配器模块,能够根据不同的输入图像和分割任务,动态调整特征表示,从而提高模型的泛化能力和鲁棒性。与传统的微调方法相比,适配器模块参数量更小,训练效率更高。

关键设计:适配器模块的具体结构可以采用卷积神经网络、Transformer等不同的形式。损失函数可以采用交叉熵损失、Dice损失等常用的分割损失函数。关键在于如何设计适配器的结构和训练策略,使其能够有效地将Foundation Model的通用特征转化为特定任务所需的特征表示。具体的参数设置和网络结构需要在实验中进行调整和优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在多个2D和3D医学图像分割数据集上进行了实验,结果表明,提出的方法相较于现有的少样本分割方法,在分割精度和鲁棒性方面均有显著提升。具体性能数据(如Dice系数、IoU等)以及与具体基线的对比结果需要在论文中查找。

🎯 应用场景

该研究成果可应用于多种医学图像分割任务,例如器官分割、病灶检测等。通过减少对大量标注数据的依赖,降低了医学图像分析的成本,加速了临床诊断和治疗的进程。未来,该方法有望推广到其他图像分割领域,例如遥感图像分析、自动驾驶等。

📄 摘要(原文)

The high cost of obtaining accurate annotations for image segmentation and localization makes the use of one and few shot algorithms attractive. Several state-of-the-art methods for few-shot segmentation have emerged, including text-based prompting for the task but suffer from sub-optimal performance for medical images. Leveraging sub-pixel level features of existing Vision Transformer (ViT) based foundation models for identifying similar region of interest (RoI) based on a single template image have been shown to be very effective for one shot segmentation and localization in medical images across modalities. However, such methods rely on assumption that template image and test image are well matched and simple correlation is sufficient to obtain correspondences. In practice, however such an approach can fail to generalize in clinical data due to patient pose changes, inter-protocol variations even within a single modality or extend to 3D data using single template image. Moreover, for multi-label tasks, the RoI identification has to be performed sequentially. In this work, we propose foundation model (FM) based adapters for single label, multi-label localization and segmentation to address these concerns. We demonstrate the efficacy of the proposed method for multiple segmentation and localization tasks for both 2D and 3D data as we well as clinical data with different poses and evaluate against the state of the art few shot segmentation methods.