Few-Shot Semantic Segmentation Meets SAM3
作者: Yi-Jen Tsai, Yen-Yu Lin, Chien-Yao Wang
分类: cs.CV
发布日期: 2026-04-07
备注: 14 pages, 3 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于SAM3的无监督少样本语义分割方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 少样本学习 语义分割 视觉基础模型 空间拼接 模型重用 负提示研究 计算机视觉
📋 核心要点
- 现有的少样本语义分割方法依赖于大量的情景训练,计算成本高且对数据分布变化敏感。
- 本文提出了一种基于SAM3的无训练解决方案,通过空间拼接策略实现支持图像与查询图像的共享处理。
- 实验结果显示,该方法在PASCAL-$5^i$和COCO-$20^i$数据集上实现了最先进的性能,超越了许多传统方法。
📝 摘要(中文)
少样本语义分割(FSS)旨在从少量标注样本中对新物体类别进行分割。现有方法通常依赖于大量的情景训练,计算开销大且对分布变化敏感。本文从现代视觉基础模型的角度重新审视FSS,探索Segment Anything Model 3(SAM3)作为无训练解决方案的潜力。通过重新利用其可提示概念分割(PCS)能力,采用简单的空间拼接策略,将支持图像和查询图像放置于共享画布上,使得完全冻结的SAM3能够在无需微调或架构更改的情况下进行分割。实验结果表明,该简约设计在PASCAL-$5^i$和COCO-$20^i$上已达到最先进的性能,超越了许多复杂设计的方法。
🔬 方法详解
问题定义:本文解决的是少样本语义分割(FSS)中的高计算成本和对分布变化敏感的问题。现有方法通常需要大量的情景训练,导致训练效率低下。
核心思路:论文的核心思路是利用Segment Anything Model 3(SAM3)作为无训练的解决方案,通过空间拼接将支持图像和查询图像放置在同一画布上,从而实现高效的分割。
技术框架:整体架构包括将支持图像和查询图像进行空间拼接,形成共享画布,利用SAM3的Promptable Concept Segmentation(PCS)能力进行分割。该方法无需对SAM3进行微调或架构更改。
关键创新:最重要的技术创新在于将SAM3的能力重新利用为无训练的分割解决方案,显著降低了计算成本,并提高了对新类别的适应性。
关键设计:关键设计包括空间拼接策略的实现,以及对负提示的研究,发现负提示在少样本设置中可能适得其反,削弱目标表示并导致预测崩溃。具体的参数设置和损失函数未在摘要中详细说明,需参考原文。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的方法在PASCAL-$5^i$和COCO-$20^i$数据集上均达到了最先进的性能,超越了许多复杂设计的基线方法,展示了该方法的有效性和优越性。
🎯 应用场景
该研究的潜在应用领域包括自动驾驶、医疗影像分析和机器人视觉等,能够在仅有少量标注数据的情况下,快速适应新物体类别的分割需求。未来,该方法可能推动少样本学习在更多实际场景中的应用,提升模型的灵活性和效率。
📄 摘要(原文)
Few-Shot Semantic Segmentation (FSS) focuses on segmenting novel object categories from only a handful of annotated examples. Most existing approaches rely on extensive episodic training to learn transferable representations, which is both computationally demanding and sensitive to distribution shifts. In this work, we revisit FSS from the perspective of modern vision foundation models and explore the potential of Segment Anything Model 3 (SAM3) as a training-free solution. By repurposing its Promptable Concept Segmentation (PCS) capability, we adopt a simple spatial concatenation strategy that places support and query images into a shared canvas, allowing a fully frozen SAM3 to perform segmentation without any fine-tuning or architectural changes. Experiments on PASCAL-$5^i$ and COCO-$20^i$ show that this minimal design already achieves state-of-the-art performance, outperforming many heavily engineered methods. Beyond empirical gains, we uncover that negative prompts can be counterproductive in few-shot settings, where they often weaken target representations and lead to prediction collapse despite their intended role in suppressing distractors. These findings suggest that strong cross-image reasoning can emerge from simple spatial formulations, while also highlighting limitations in how current foundation models handle conflicting prompt signals. Code at: https://github.com/WongKinYiu/FSS-SAM3