Show or Tell? A Benchmark To Evaluate Visual and Textual Prompts in Semantic Segmentation

作者: Gabriele Rosi, Fabio Cermelli

分类: cs.CV

发布日期: 2025-05-06

备注: Accepted to PixFoundation workshop at CVPR2025. Code: https://github.com/FocoosAI/ShowOrTell

💡 一句话要点

提出Show or Tell基准，用于评估语义分割中视觉和文本提示的性能。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语义分割 提示工程 视觉提示 文本提示 基准测试 开放词汇 视觉基础模型

📋 核心要点

现有语义分割基准测试孤立地评估文本和视觉提示，缺乏在相同条件下的直接比较。
提出Show or Tell (SoT)基准，旨在统一评估文本和视觉提示在语义分割中的性能。
实验结果表明，文本提示擅长常见概念，视觉提示平均性能较好但依赖输入提示。

📝 摘要（中文）

提示工程在大语言模型中取得了显著成功，但在计算机视觉中的系统性探索仍然有限。在语义分割中，文本和视觉提示各有优势：文本提示通过开放词汇方法允许分割任意类别，而视觉参考提示提供直观的参考示例。然而，现有的基准测试孤立地评估这些模态，缺乏在相同条件下的直接比较。我们提出了Show or Tell (SoT)，这是一个专门设计的基准，用于评估跨越7个不同领域（常见场景、城市、食物、废物、零件、工具和土地覆盖）的14个数据集上，视觉和文本提示的语义分割性能。我们评估了5种开放词汇方法和4种视觉参考提示方法，并通过基于置信度的掩码合并策略，使后者能够处理多类分割。大量的实验表明，开放词汇方法擅长处理易于用文本描述的常见概念，但在工具等复杂领域中表现不佳，而视觉参考提示方法取得了良好的平均结果，但表现出高度的输入提示依赖性。通过全面的定量和定性分析，我们确定了两种提示模态的优势和劣势，为未来分割任务的视觉基础模型研究提供了有价值的见解。

🔬 方法详解

问题定义：现有语义分割方法在利用提示信息方面存在不足，特别是缺乏一个统一的基准来比较文本和视觉提示的性能。现有方法通常孤立地评估这两种模态，无法公平地比较它们的优劣，阻碍了相关研究的进展。此外，如何有效地将视觉参考提示应用于多类分割也是一个挑战。

核心思路：该论文的核心思路是构建一个综合性的基准测试集，包含多种场景和数据集，并设计合理的评估指标，以便在相同条件下比较文本和视觉提示的语义分割性能。通过分析两种提示方式的优势和劣势，为未来的研究提供指导。

技术框架：Show or Tell (SoT)基准包含14个数据集，涵盖7个不同的领域。该基准评估了5种开放词汇方法和4种视觉参考提示方法。对于视觉参考提示方法，论文提出了一种基于置信度的掩码合并策略，用于处理多类分割问题。整体流程包括：1) 选择数据集和提示方式；2) 使用相应的模型进行语义分割；3) 使用评估指标评估分割结果；4) 分析结果并比较不同提示方式的性能。

关键创新：该论文的关键创新在于提出了一个统一的基准测试集，用于比较文本和视觉提示在语义分割中的性能。此外，论文还提出了一种基于置信度的掩码合并策略，用于将视觉参考提示方法应用于多类分割问题。

关键设计：对于视觉参考提示方法的多类分割，论文设计了一种基于置信度的掩码合并策略。具体来说，对于每个类别，模型会生成一个分割掩码和一个置信度分数。然后，根据置信度分数，将不同类别的掩码合并成一个最终的分割结果。这种策略可以有效地处理多类分割问题，并提高分割的准确性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，开放词汇方法在处理常见概念时表现出色，但在复杂领域（如工具）中表现不佳。视觉参考提示方法取得了良好的平均结果，但性能高度依赖于输入提示。通过SoT基准的评估，研究人员可以更清晰地了解不同提示方式的优缺点，从而选择更合适的提示方式来解决特定的语义分割问题。

🎯 应用场景

该研究成果可应用于自动驾驶、遥感图像分析、医疗图像诊断、机器人视觉等领域。通过选择合适的提示方式，可以提高语义分割的准确性和效率，从而改善相关应用的性能。例如，在自动驾驶中，可以利用文本提示分割交通标志，利用视觉提示分割车辆和行人。

📄 摘要（原文）

Prompt engineering has shown remarkable success with large language models, yet its systematic exploration in computer vision remains limited. In semantic segmentation, both textual and visual prompts offer distinct advantages: textual prompts through open-vocabulary methods allow segmentation of arbitrary categories, while visual reference prompts provide intuitive reference examples. However, existing benchmarks evaluate these modalities in isolation, without direct comparison under identical conditions. We present Show or Tell (SoT), a novel benchmark specifically designed to evaluate both visual and textual prompts for semantic segmentation across 14 datasets spanning 7 diverse domains (common scenes, urban, food, waste, parts, tools, and land-cover). We evaluate 5 open-vocabulary methods and 4 visual reference prompt approaches, adapting the latter to handle multi-class segmentation through a confidence-based mask merging strategy. Our extensive experiments reveal that open-vocabulary methods excel with common concepts easily described by text but struggle with complex domains like tools, while visual reference prompt methods achieve good average results but exhibit high variability depending on the input prompt. Through comprehensive quantitative and qualitative analysis, we identify the strengths and weaknesses of both prompting modalities, providing valuable insights to guide future research in vision foundation models for segmentation tasks.

Show or Tell? A Benchmark To Evaluate Visual and Textual Prompts in Semantic Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理