Show or Tell? Effectively prompting Vision-Language Models for semantic segmentation

📄 arXiv: 2503.19647v1 📥 PDF

作者: Niccolo Avogaro, Thomas Frick, Mattia Rigotti, Andrea Bartezzaghi, Filip Janicki, Cristiano Malossi, Konrad Schindler, Roy Assaf

分类: cs.CV, cs.AI

发布日期: 2025-03-25


💡 一句话要点

针对语义分割,研究如何有效提示视觉-语言模型,并提出PromptMatcher。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 语义分割 提示学习 小样本学习 多模态融合

📋 核心要点

  1. 现有视觉-语言模型在语义分割任务上性能不佳,且缺乏对不同提示方式的系统性研究。
  2. 提出PromptMatcher,一种结合文本和视觉提示的免训练基线方法,旨在提升语义分割性能。
  3. 实验表明,PromptMatcher在小样本语义分割上优于单独使用文本或视觉提示的VLM模型。

📝 摘要(中文)

大型视觉-语言模型(VLMs)正日益被视为基础模型,可以通过提示来指导其解决各种任务,而无需特定于任务的训练。本文研究了一个看似显而易见的问题:如何有效地提示VLMs进行语义分割。为此,我们在分布外的MESS数据集集合上,系统地评估了由文本或视觉提示引导的几种最新模型的分割性能。我们引入了一种可扩展的提示方案,即小样本提示语义分割,其灵感来自开放词汇分割和小样本学习。结果表明,VLMs在交并比(Intersection-over-Union)指标上,远远落后于为特定分割任务训练的专家模型,平均差距约为30%。此外,我们发现文本提示和视觉提示是互补的:两种模式中的每一种都会在另一种可以解决的许多示例上失败。我们的分析表明,能够预测最有效的提示模式可以带来11%的性能提升。受此发现的启发,我们提出了PromptMatcher,这是一个非常简单的免训练基线,它结合了文本和视觉提示,实现了最先进的结果,在小样本提示语义分割上,优于最佳文本提示VLM 2.5%,优于最佳视觉提示VLM 3.5%。

🔬 方法详解

问题定义:论文旨在解决视觉-语言模型(VLM)在语义分割任务中,如何有效利用提示信息的问题。现有方法要么依赖特定任务的训练,要么在提示方式的选择上缺乏系统性研究,导致VLM在语义分割任务上的性能远低于专用模型。此外,如何有效地结合不同模态的提示信息也是一个挑战。

核心思路:论文的核心思路是探索文本提示和视觉提示的互补性,并设计一种简单有效的策略来融合这两种提示方式。通过分析不同提示方式的优缺点,论文发现文本提示和视觉提示在不同的场景下各有优势,因此结合两者可以提高整体性能。

技术框架:论文提出的PromptMatcher是一个免训练的基线方法,其整体框架包括以下几个步骤:1) 使用文本提示和视觉提示分别对图像进行分割;2) 分析两种提示方式的分割结果,并根据一定的策略选择更合适的分割结果;3) 将选择的分割结果作为最终的语义分割结果。

关键创新:论文的关键创新在于提出了PromptMatcher,一种简单有效的融合文本和视觉提示的策略。与现有方法相比,PromptMatcher无需训练,可以直接应用于各种VLM模型,并且能够充分利用不同模态提示信息的互补性。

关键设计:PromptMatcher的关键设计在于如何选择合适的分割结果。论文通过分析文本提示和视觉提示的置信度,以及分割结果的一致性,来判断哪种提示方式更可靠。具体的选择策略可以根据实际情况进行调整,例如,可以选择置信度更高的分割结果,或者选择两种提示方式都认可的分割区域。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PromptMatcher在小样本提示语义分割任务上取得了state-of-the-art的结果,优于最佳文本提示VLM 2.5%,优于最佳视觉提示VLM 3.5%。此外,论文还发现文本提示和视觉提示具有互补性,能够预测最有效的提示模式可以带来11%的性能提升。

🎯 应用场景

该研究成果可应用于自动驾驶、遥感图像分析、医学图像诊断等领域。通过有效利用视觉-语言模型的提示能力,可以实现更精确、更鲁棒的语义分割,从而提高相关应用系统的性能和可靠性。未来的研究可以进一步探索更复杂的提示策略和更有效的融合方法。

📄 摘要(原文)

Large Vision-Language Models (VLMs) are increasingly being regarded as foundation models that can be instructed to solve diverse tasks by prompting, without task-specific training. We examine the seemingly obvious question: how to effectively prompt VLMs for semantic segmentation. To that end, we systematically evaluate the segmentation performance of several recent models guided by either text or visual prompts on the out-of-distribution MESS dataset collection. We introduce a scalable prompting scheme, few-shot prompted semantic segmentation, inspired by open-vocabulary segmentation and few-shot learning. It turns out that VLMs lag far behind specialist models trained for a specific segmentation task, by about 30% on average on the Intersection-over-Union metric. Moreover, we find that text prompts and visual prompts are complementary: each one of the two modes fails on many examples that the other one can solve. Our analysis suggests that being able to anticipate the most effective prompt modality can lead to a 11% improvement in performance. Motivated by our findings, we propose PromptMatcher, a remarkably simple training-free baseline that combines both text and visual prompts, achieving state-of-the-art results outperforming the best text-prompted VLM by 2.5%, and the top visual-prompted VLM by 3.5% on few-shot prompted semantic segmentation.