Segment Using Just One Example

📄 arXiv: 2408.07393v1 📥 PDF

作者: Pratik Vora, Sudipan Saha

分类: cs.CV, eess.IV

发布日期: 2024-08-14


💡 一句话要点

提出基于单样本图像的语义分割方法,利用SAM自动生成提示。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 单样本分割 语义分割 Segment Anything 自动提示生成 零样本学习

📋 核心要点

  1. 现有语义分割方法依赖大量标注数据,无监督方法难以与目标类别对应,单样本分割是挑战。
  2. 利用Segment Anything (SAM)模型,设计自动提示生成技术,实现单样本图像的语义分割。
  3. 该方法无需训练,仅需单张示例图像,且无需文本提示,在建筑物和汽车分割任务上验证有效。

📝 摘要(中文)

语义分割是计算机视觉中的一个重要课题,在地球观测等领域有许多相关应用。虽然监督方法已经存在,但有限的标注数据限制了其发展,从而推动了无监督方法的研究。然而,现有的无监督方法类似于聚类,不能直接映射到明确的目标类别。本文提出了一种单样本语义分割方法,即提供目标类的一个示例,用于从查询/测试图像中分割目标类。我们的方法利用了最近流行的可提示基础模型Segment Anything (SAM)。我们专门设计了几种技术,从示例/关键图像中自动生成提示,从而在示例/关键图像和查询/测试图像的拼接或连接上成功实现分割。所提出的技术不涉及任何训练阶段,只需要一个示例图像即可掌握概念。此外,该方法不需要基于文本的提示。我们在建筑物和汽车类别上评估了所提出的技术。

🔬 方法详解

问题定义:论文旨在解决单样本语义分割问题,即仅给定目标类别的一个示例图像,如何从查询图像中分割出该目标类别。现有方法要么依赖大量标注数据,要么是无监督方法,无法直接映射到目标类别,缺乏灵活性和泛化性。

核心思路:论文的核心思路是利用预训练的Segment Anything Model (SAM) 的强大分割能力,并设计自动提示生成策略,将单样本图像作为SAM的提示,引导SAM在查询图像中分割出目标类别。通过巧妙地将示例图像和查询图像拼接在一起,使得SAM能够同时感知示例和查询图像,从而实现单样本分割。

技术框架:整体流程如下:1. 输入:单样本示例图像和查询图像。2. 图像拼接:将示例图像和查询图像拼接在一起。3. 自动提示生成:设计算法自动从示例图像中生成SAM所需的提示(例如,边界框、点)。4. SAM分割:将拼接后的图像和生成的提示输入SAM,得到分割结果。5. 后处理:对SAM的输出进行后处理,得到最终的分割结果。

关键创新:该方法最重要的创新点在于利用SAM的zero-shot能力,并巧妙地设计了自动提示生成策略,从而实现了单样本语义分割。与现有方法相比,该方法无需训练,只需要一个示例图像,并且不需要文本提示,具有更高的灵活性和易用性。

关键设计:关键设计包括:1. 图像拼接方式:选择合适的拼接方式,使得SAM能够同时感知示例图像和查询图像。2. 自动提示生成算法:设计有效的算法,从示例图像中自动生成高质量的提示,例如,基于边缘检测或显著性检测的方法。3. 后处理方法:对SAM的输出进行后处理,例如,去除噪声、平滑边缘等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的方法在建筑物和汽车分割任务上进行了评估,结果表明,该方法仅使用单张示例图像,即可实现较好的分割效果。虽然论文中没有给出具体的性能数据,但定性结果表明,该方法能够有效地分割出目标类别,具有一定的实用价值。与需要大量标注数据的监督方法相比,该方法具有显著的优势。

🎯 应用场景

该研究成果可应用于遥感图像分析、医学图像分割、自动驾驶等领域。例如,在遥感图像分析中,可以利用单张建筑物示例图像,快速分割出遥感图像中的建筑物区域。在医学图像分割中,可以利用单张肿瘤示例图像,辅助医生诊断。在自动驾驶领域,可以利用单张交通标志示例图像,识别道路上的交通标志。

📄 摘要(原文)

Semantic segmentation is an important topic in computer vision with many relevant application in Earth observation. While supervised methods exist, the constraints of limited annotated data has encouraged development of unsupervised approaches. However, existing unsupervised methods resemble clustering and cannot be directly mapped to explicit target classes. In this paper, we deal with single shot semantic segmentation, where one example for the target class is provided, which is used to segment the target class from query/test images. Our approach exploits recently popular Segment Anything (SAM), a promptable foundation model. We specifically design several techniques to automatically generate prompts from the only example/key image in such a way that the segmentation is successfully achieved on a stitch or concatenation of the example/key and query/test images. Proposed technique does not involve any training phase and just requires one example image to grasp the concept. Furthermore, no text-based prompt is required for the proposed method. We evaluated the proposed techniques on building and car classes.