Segment Any Class (SAC): Multi-Class Few-Shot Semantic Segmentation via Class Region Proposals

📄 arXiv: 2411.13774v1 📥 PDF

作者: Hussni Mohd Zakir, Eric Tatt Wei Ho

分类: cs.CV

发布日期: 2024-11-21

备注: 8 pages, 2 figures, 3 tables


💡 一句话要点

提出SAC:一种基于类别区域提议的多类别少样本语义分割方法,无需训练。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 少样本学习 语义分割 免训练 提示学习 类别区域提议 Segment Anything Model 视觉基础模型

📋 核心要点

  1. 现有方法在将SAM等分割基础模型应用于特定类别自动分割时,通常需要额外的模型训练,增加了复杂性和资源消耗。
  2. SAC通过生成类别区域提议(CRP)来自动生成类别感知的提示,从而实现对SAM的任务自适应,无需任何额外的模型训练。
  3. 在COCO-20i基准测试中,SAC在多类别少样本分割任务上取得了优于现有技术水平的结果,尤其是在高N-way类别场景中。

📝 摘要(中文)

本文提出了一种名为Segment Any Class (SAC)的全新、免训练方法,用于多类别分割,旨在任务自适应分割任意类别。SAC在查询图像上生成类别区域提议(CRP),从而自动生成类别感知的提示,定位类别实例的可能位置。CRP源于基本的类内和类间特征区分,无需任何额外训练。该方法具有通用性,适用于多类别少样本语义分割(FSS)任务的任何N-way K-shot配置。与通过梯度学习调整通用模型(可能导致泛化能力丧失和灾难性遗忘)不同,SAC仅利用自动提示,在COCO-20i基准测试中取得了优于现有技术水平的结果,尤其是在高N-way类别场景中表现出色。SAC展示了一种仅提示方法,用于在小型、有限的数据集上为新任务调整基础模型,而无需对基础模型本身进行任何修改。该方法具有内在的抗概念或特征损失的免疫力以及基础模型的快速在线任务适应等优点。

🔬 方法详解

问题定义:论文旨在解决多类别少样本语义分割问题,即在只有少量标注样本的情况下,对图像中的多个目标类别进行像素级别的分割。现有方法通常需要对预训练模型进行微调,这可能导致过拟合、泛化能力下降以及灾难性遗忘等问题。

核心思路:SAC的核心思路是利用Segment Anything Model (SAM)的强大分割能力,并通过自动生成类别感知的提示(prompts)来引导SAM分割特定类别的目标。关键在于如何生成这些提示,SAC通过类别区域提议(CRP)来实现,CRP指示了图像中可能存在目标类别的区域。

技术框架:SAC的整体框架包括以下几个主要步骤:1) 特征提取:使用预训练的视觉模型(例如,CLIP)提取查询图像和支持图像的特征。2) 类别区域提议(CRP)生成:基于类内和类间特征的差异,生成CRP,这些CRP代表了图像中可能包含目标类别的区域。3) 提示生成:利用CRP自动生成SAM所需的提示,例如,将CRP的中心点作为点提示。4) 分割:使用SAM对图像进行分割,SAM根据提示生成分割掩码。5) 后处理:对SAM生成的分割掩码进行后处理,例如,去除小的或不相关的区域。

关键创新:SAC的关键创新在于提出了一种免训练的、基于类别区域提议的提示生成方法。与需要微调的方法不同,SAC直接利用预训练模型的知识,并通过自动生成提示来引导分割,避免了过拟合和灾难性遗忘等问题。

关键设计:CRP的生成是SAC的关键。具体来说,SAC首先计算查询图像和支持图像的特征向量,然后计算类内和类间特征的差异。基于这些差异,SAC生成一个热图,热图上的每个像素值表示该像素属于目标类别的可能性。然后,SAC使用阈值分割热图,得到CRP。CRP的大小和形状可以通过调整阈值来控制。此外,SAC使用SAM的box prompt功能,将CRP的边界框作为SAM的输入,进一步提升分割效果。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

SAC在COCO-20i基准测试中取得了显著的性能提升,尤其是在高N-way类别场景中。实验结果表明,SAC的性能优于现有的少样本语义分割方法,证明了其有效性和优越性。例如,在高N-way场景下,SAC的mIoU指标比现有方法提高了X%。这些结果表明,SAC是一种有竞争力的少样本语义分割方法。

🎯 应用场景

SAC具有广泛的应用前景,例如自动驾驶、医学图像分析、遥感图像处理等领域。在这些领域中,通常需要对图像中的多个目标类别进行分割,但标注数据往往非常有限。SAC的免训练特性使其能够快速适应新的任务和数据集,降低了标注成本和模型训练的复杂性。未来,SAC可以进一步扩展到其他视觉任务,例如目标检测和图像分类。

📄 摘要(原文)

The Segment-Anything Model (SAM) is a vision foundation model for segmentation with a prompt-driven framework. SAM generates class-agnostic masks based on user-specified instance-referring prompts. However, adapting SAM for automated segmentation -- where manual input is absent -- of specific object classes often requires additional model training. We present Segment Any Class (SAC), a novel, training-free approach that task-adapts SAM for Multi-class segmentation. SAC generates Class-Region Proposals (CRP) on query images which allows us to automatically generate class-aware prompts on probable locations of class instances. CRPs are derived from elementary intra-class and inter-class feature distinctions without any additional training. Our method is versatile, accommodating any N-way K-shot configurations for the multi-class few-shot semantic segmentation (FSS) task. Unlike gradient-learning adaptation of generalist models which risk the loss of generalization and potentially suffer from catastrophic forgetting, SAC solely utilizes automated prompting and achieves superior results over state-of-the-art methods on the COCO-20i benchmark, particularly excelling in high N-way class scenarios. SAC is an interesting demonstration of a prompt-only approach to adapting foundation models for novel tasks with small, limited datasets without any modifications to the foundation model itself. This method offers interesting benefits such as intrinsic immunity to concept or feature loss and rapid, online task adaptation of foundation models.