Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

作者: Tilemachos Aravanis, Vladan Stojnić, Bill Psomas, Nikos Komodakis, Giorgos Tolias

分类: cs.CV

发布日期: 2026-02-26

💡 一句话要点

提出检索增强的测试时适配器，以少量样本弥合开放词汇分割的监督差距。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 开放词汇分割 少量样本学习 视觉-语言模型 测试时适配 检索增强

📋 核心要点

开放词汇分割面临图像级监督粗糙和自然语言语义模糊的挑战，导致性能落后于全监督方法。
论文提出检索增强的测试时适配器，通过融合文本和视觉支持特征，学习每个图像的轻量级分类器。
实验表明，该方法在少量样本下，显著缩小了零样本和监督分割之间的差距，同时保持了开放词汇能力。

📝 摘要（中文）

开放词汇分割（OVS）将视觉-语言模型（VLM）的零样本识别能力扩展到像素级预测，从而能够分割由文本提示指定的任意类别。尽管最近取得了进展，但由于用于训练VLM的粗略图像级监督以及自然语言的语义模糊性，OVS仍然落后于完全监督的方法。我们通过引入少量样本设置来解决这些限制，该设置使用像素注释图像的支持集来增强文本提示。在此基础上，我们提出了一种检索增强的测试时适配器，该适配器通过融合文本和视觉支持特征来学习轻量级的、每个图像的分类器。与依赖于后期手工融合的先前方法不同，我们的方法执行学习的、每个查询的融合，从而实现模态之间更强的协同作用。该方法支持不断扩展的支持集，并适用于个性化分割等细粒度任务。实验表明，我们在保持开放词汇能力的同时，显着缩小了零样本和监督分割之间的差距。

🔬 方法详解

问题定义：开放词汇分割（OVS）旨在利用文本提示分割图像中任意类别的物体。现有方法主要依赖于视觉-语言模型（VLM）的零样本能力，但由于VLM训练时使用的图像级监督较为粗糙，且自然语言本身存在语义模糊性，导致OVS的性能与完全监督的方法相比仍有较大差距。现有方法通常采用手工设计的融合策略，无法充分利用文本和视觉信息之间的协同作用。

核心思路：论文的核心思路是利用少量带像素级标注的图像作为支持集，通过检索增强的方式，在测试时学习一个轻量级的适配器，从而弥合零样本和监督分割之间的差距。该适配器能够融合文本提示和视觉支持特征，实现更精确的像素级预测。通过学习每个查询的融合方式，能够更好地利用不同模态的信息。

技术框架：整体框架包含以下几个主要模块：1) 特征提取：使用预训练的VLM提取图像和文本的特征。2) 检索模块：根据文本提示，从支持集中检索相关的图像特征。3) 适配器学习：利用检索到的视觉特征和文本特征，学习一个轻量级的、每个图像的分类器。4) 分割预测：使用学习到的分类器对图像进行像素级分割。该框架支持不断扩展的支持集，可以适应个性化分割等细粒度任务。

关键创新：最重要的技术创新点在于检索增强的测试时适配器，以及学习的、每个查询的融合方式。与现有方法依赖于手工设计的融合策略不同，该方法能够根据不同的文本提示和视觉支持特征，自适应地学习最佳的融合方式，从而实现更强的模态协同作用。此外，该方法还支持不断扩展的支持集，使其能够适应各种不同的分割任务。

关键设计：适配器的具体结构未知，但推测可能包含一些轻量级的卷积层或全连接层，用于融合文本和视觉特征。损失函数可能包含交叉熵损失或Dice损失，用于优化分割结果。具体的参数设置和网络结构未知，需要在论文中进一步查找。

📊 实验亮点

论文提出的检索增强测试时适配器，在少量样本设置下，显著缩小了零样本和监督分割之间的差距。具体性能数据未知，但摘要中强调了“显著缩小差距”，表明该方法取得了重要的性能提升。与现有方法相比，该方法能够实现更强的模态协同作用，从而获得更精确的分割结果。该方法在保持开放词汇能力的同时，提高了分割精度。

🎯 应用场景

该研究成果可应用于自动驾驶、医学图像分析、遥感图像处理等领域。例如，在自动驾驶中，可以利用该方法分割道路、车辆、行人等目标，提高自动驾驶系统的感知能力。在医学图像分析中，可以用于分割肿瘤、器官等组织，辅助医生进行诊断和治疗。该方法还具有个性化分割的潜力，可以根据用户的需求定制分割结果。

📄 摘要（原文）

Open-vocabulary segmentation (OVS) extends the zero-shot recognition capabilities of vision-language models (VLMs) to pixel-level prediction, enabling segmentation of arbitrary categories specified by text prompts. Despite recent progress, OVS lags behind fully supervised approaches due to two challenges: the coarse image-level supervision used to train VLMs and the semantic ambiguity of natural language. We address these limitations by introducing a few-shot setting that augments textual prompts with a support set of pixel-annotated images. Building on this, we propose a retrieval-augmented test-time adapter that learns a lightweight, per-image classifier by fusing textual and visual support features. Unlike prior methods relying on late, hand-crafted fusion, our approach performs learned, per-query fusion, achieving stronger synergy between modalities. The method supports continually expanding support sets, and applies to fine-grained tasks such as personalized segmentation. Experiments show that we significantly narrow the gap between zero-shot and supervised segmentation while preserving open-vocabulary ability.

Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理