Training-Free Generalized Few-Shot Segmentation through Open-Vocabulary Semantic Arbitration

📄 arXiv: 2606.09474v1 📥 PDF

作者: Silas Kwabla Gah, Ebenezer Owusu

分类: cs.CV

发布日期: 2026-06-08


💡 一句话要点

提出Open-V以解决训练无关的少样本语义分割问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 少样本分割 语义仲裁 基础模型 开放词汇 无训练学习

📋 核心要点

  1. 现有的GFSS方法依赖于特定任务的训练,难以适应新类别,限制了其灵活性和通用性。
  2. 本文提出的Open-V框架通过推理时的语义仲裁,利用冻结的基础模型先验,避免了训练过程,支持任意语义类别。
  3. 在PASCAL-5i数据集上,Open-V在1-shot情况下实现了78.4/77.5/77.9的mIoU,超越了最强训练基线17.7 HM,展示了其有效性。

📝 摘要(中文)

传统的广义少样本语义分割(GFSS)通常被视为一个表示学习问题,需要针对特定任务进行适应以整合来自有限支持样本的新类别。然而,最近的基础模型已经展现出强大的开放词汇识别和分割能力。本文提出了Open-V,一个无训练的GFSS框架,通过冻结的语义先验在推理时进行协调,而不是参数适应。Open-V结合了Segment Anything(SAM)和Promptable Concept Segmentation(PCS),通过校准的逐像素语义仲裁实现。我们的研究还发现支持信息可以通过推理时的语义基础来整合,并且其贡献在基础模型文本先验减弱时会增加。我们在PASCAL5i、COCO-20i和ADE-OW上验证了Open-V,显示其在传统GFSS和开放词汇评估设置下的广泛适用性。

🔬 方法详解

问题定义:本文旨在解决广义少样本语义分割(GFSS)中对新类别的适应性问题,现有方法通常需要针对特定任务进行训练,限制了其灵活性和适用范围。

核心思路:Open-V框架通过推理时的语义仲裁,利用冻结的基础模型先验,而非进行参数适应,从而实现训练无关的少样本分割。该设计旨在提高模型的通用性和适应性。

技术框架:Open-V结合了Segment Anything(SAM)和Promptable Concept Segmentation(PCS),通过K-shot CLIP支持中心进行逐像素的语义仲裁,整体流程包括输入图像的处理、语义先验的提取和仲裁过程。

关键创新:Open-V的最大创新在于其完全无训练的特性,利用冻结的基础模型先验进行推理时的协调,显著区别于传统需要训练的GFSS方法。

关键设计:在设计中,Open-V没有引入任何可训练的组件,支持任意语义类别的推理,且通过校准的逐像素语义仲裁来整合支持信息,确保了模型在不同任务上的有效性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

在PASCAL-5i数据集上,Open-V在1-shot情况下实现了78.4的基础mIoU、77.5的新增类别mIoU和77.9的谐和mIoU,超越了最强训练基线17.7 HM,展示了其在无训练条件下的优越性能。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶、医学影像分析和视频监控等场景,能够在没有大量标注数据的情况下,实现对新类别的快速适应,提升智能系统的灵活性和实用性。未来,Open-V可能推动更多无监督或少监督学习方法的发展,促进人工智能在复杂环境中的应用。

📄 摘要(原文)

Generalized Few-Shot Semantic Segmentation (GFSS) has traditionally been approached as a representation-learning problem, requiring task-specific adaptation to incorporate novel classes from limited support examples. Recent foundation models, however, already exhibit strong open-vocabulary recognition and segmentation capabilities, raising a different question: can GFSS be solved through inference-time coordination of frozen semantic priors rather than parameter adaptation? We answer this question with Open-V, a training-free GFSS framework that combines Segment Anything (SAM3) Promptable Concept Segmentation (PCS) with a K-shot CLIP support centroid through calibrated per-pixel semantic arbitration. OpenV introduces no trainable components and supports arbitrary semantic categories at inference time. Beyond segmentation performance, our study contributes three broader findings. First, we show that support information can be incorporated through inference-time semantic grounding, and that its contribution increases as foundation-model text priors weaken on label-disjoint vocabularies. Second, we identify a reproducibility confound in foundationmodel segmentation, demonstrating that preprocessing and evaluation-space mismatches can silently distort reported performance. Finally, we validate Open-V across PASCAL5i, COCO-20i, and ADE-OW, showing that training-free coordination of foundation-model priors generalizes across both conventional GFSS and open-vocabulary evaluation settings. On PASCAL-5i (1-shot), Open-V attains base/novel/harmonic mIoU of 78.4/77.5/77.9, without GFSS-specific training surpassing the strongest trained baseline by +17.7 HM.