Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

📄 arXiv: 2602.23339v1 📥 PDF

作者: Tilemachos Aravanis, Vladan Stojnić, Bill Psomas, Nikos Komodakis, Giorgos Tolias

分类: cs.CV

发布日期: 2026-02-26


💡 一句话要点

提出检索增强的测试时适配器,以少量样本弥合开放词汇分割的监督差距。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇分割 少量样本学习 视觉-语言模型 测试时适配 检索增强

📋 核心要点

  1. 开放词汇分割面临图像级监督粗糙和自然语言语义模糊的挑战,导致性能落后于全监督方法。
  2. 论文提出检索增强的测试时适配器,通过融合文本和视觉支持特征,学习每个图像的轻量级分类器。
  3. 实验表明,该方法在少量样本下,显著缩小了零样本和监督分割之间的差距,同时保持了开放词汇能力。

📝 摘要(中文)

开放词汇分割(OVS)将视觉-语言模型(VLM)的零样本识别能力扩展到像素级预测,从而能够分割由文本提示指定的任意类别。尽管最近取得了进展,但由于用于训练VLM的粗略图像级监督以及自然语言的语义模糊性,OVS仍然落后于完全监督的方法。我们通过引入少量样本设置来解决这些限制,该设置使用像素注释图像的支持集来增强文本提示。在此基础上,我们提出了一种检索增强的测试时适配器,该适配器通过融合文本和视觉支持特征来学习轻量级的、每个图像的分类器。与依赖于后期手工融合的先前方法不同,我们的方法执行学习的、每个查询的融合,从而实现模态之间更强的协同作用。该方法支持不断扩展的支持集,并适用于个性化分割等细粒度任务。实验表明,我们在保持开放词汇能力的同时,显着缩小了零样本和监督分割之间的差距。

🔬 方法详解

问题定义:开放词汇分割(OVS)旨在利用文本提示分割图像中任意类别的物体。现有方法主要依赖于视觉-语言模型(VLM)的零样本能力,但由于VLM训练时使用的图像级监督较为粗糙,且自然语言本身存在语义模糊性,导致OVS的性能与完全监督的方法相比仍有较大差距。现有方法通常采用手工设计的融合策略,无法充分利用文本和视觉信息之间的协同作用。

核心思路:论文的核心思路是利用少量带像素级标注的图像作为支持集,通过检索增强的方式,在测试时学习一个轻量级的适配器,从而弥合零样本和监督分割之间的差距。该适配器能够融合文本提示和视觉支持特征,实现更精确的像素级预测。通过学习每个查询的融合方式,能够更好地利用不同模态的信息。

技术框架:整体框架包含以下几个主要模块:1) 特征提取:使用预训练的VLM提取图像和文本的特征。2) 检索模块:根据文本提示,从支持集中检索相关的图像特征。3) 适配器学习:利用检索到的视觉特征和文本特征,学习一个轻量级的、每个图像的分类器。4) 分割预测:使用学习到的分类器对图像进行像素级分割。该框架支持不断扩展的支持集,可以适应个性化分割等细粒度任务。

关键创新:最重要的技术创新点在于检索增强的测试时适配器,以及学习的、每个查询的融合方式。与现有方法依赖于手工设计的融合策略不同,该方法能够根据不同的文本提示和视觉支持特征,自适应地学习最佳的融合方式,从而实现更强的模态协同作用。此外,该方法还支持不断扩展的支持集,使其能够适应各种不同的分割任务。

关键设计:适配器的具体结构未知,但推测可能包含一些轻量级的卷积层或全连接层,用于融合文本和视觉特征。损失函数可能包含交叉熵损失或Dice损失,用于优化分割结果。具体的参数设置和网络结构未知,需要在论文中进一步查找。

📊 实验亮点

论文提出的检索增强测试时适配器,在少量样本设置下,显著缩小了零样本和监督分割之间的差距。具体性能数据未知,但摘要中强调了“显著缩小差距”,表明该方法取得了重要的性能提升。与现有方法相比,该方法能够实现更强的模态协同作用,从而获得更精确的分割结果。该方法在保持开放词汇能力的同时,提高了分割精度。

🎯 应用场景

该研究成果可应用于自动驾驶、医学图像分析、遥感图像处理等领域。例如,在自动驾驶中,可以利用该方法分割道路、车辆、行人等目标,提高自动驾驶系统的感知能力。在医学图像分析中,可以用于分割肿瘤、器官等组织,辅助医生进行诊断和治疗。该方法还具有个性化分割的潜力,可以根据用户的需求定制分割结果。

📄 摘要(原文)

Open-vocabulary segmentation (OVS) extends the zero-shot recognition capabilities of vision-language models (VLMs) to pixel-level prediction, enabling segmentation of arbitrary categories specified by text prompts. Despite recent progress, OVS lags behind fully supervised approaches due to two challenges: the coarse image-level supervision used to train VLMs and the semantic ambiguity of natural language. We address these limitations by introducing a few-shot setting that augments textual prompts with a support set of pixel-annotated images. Building on this, we propose a retrieval-augmented test-time adapter that learns a lightweight, per-image classifier by fusing textual and visual support features. Unlike prior methods relying on late, hand-crafted fusion, our approach performs learned, per-query fusion, achieving stronger synergy between modalities. The method supports continually expanding support sets, and applies to fine-grained tasks such as personalized segmentation. Experiments show that we significantly narrow the gap between zero-shot and supervised segmentation while preserving open-vocabulary ability.