Harnessing Vision Foundation Models for High-Performance, Training-Free Open Vocabulary Segmentation

作者: Yuheng Shi, Minjing Dong, Chang Xu

分类: cs.CV

发布日期: 2024-11-14

备注: 12 pages, 5 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出Trident框架，无需训练即可实现高性能开放词汇分割

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 开放词汇分割 语义分割 CLIP SAM 特征拼接 全局聚合 无需训练

📋 核心要点

现有开放词汇分割方法受限于CLIP的空间不变性和低分辨率特征，导致分割性能不佳。
Trident框架采用splice-then-segment范式，结合CLIP、DINO和SAM，有效利用高分辨率图像的细粒度语义信息。
通过特征拼接、全局聚合和提示细化等策略，Trident在多个基准测试中显著提升了分割精度。

📝 摘要（中文）

对比语言-图像预训练（CLIP）在开放词汇预测方面取得了进展，但其在语义分割上的表现仍不理想。这主要是由于其空间不变的语义特征和有限的分辨率。虽然之前的研究通过修改CLIP图像编码器中的自注意力机制来解决空间不变性问题，但有限分辨率的问题仍未被探索。与之前通过滑动窗口分割子图像然后拼接结果的segment-then-splice方法不同，我们引入了一种splice-then-segment范式，该范式结合了Segment-Anything Model（SAM）来解决分辨率问题，因为SAM擅长从高分辨率图像中提取细粒度的语义相关性。具体来说，我们引入了Trident，这是一个无需训练的框架，它首先拼接由CLIP和DINO从子图像中提取的特征，然后利用SAM的编码器创建一个相关矩阵用于全局聚合，从而扩大了感受野以实现有效的分割。此外，我们提出了一种细化策略，通过将CLIP的粗分割输出转换为SAM的提示，进一步提高了分割性能。与当前SOTA相比，Trident在八个基准测试中实现了mIoU的显著提升，从44.4提高到48.6。

🔬 方法详解

问题定义：开放词汇语义分割旨在识别图像中属于任意文本描述类别的像素。现有方法，特别是基于CLIP的方法，在语义分割任务中表现不佳，主要原因是CLIP提取的特征具有空间不变性，并且分辨率有限。这导致难以准确分割图像中的细小物体和复杂场景。之前的研究主要集中于解决空间不变性问题，而忽略了分辨率的限制。

核心思路：Trident的核心思路是采用一种splice-then-segment的范式，即先拼接从子图像中提取的特征，然后再进行分割。这种方法利用了Segment-Anything Model (SAM) 在处理高分辨率图像和提取细粒度语义相关性方面的优势。通过将图像分割成多个子图像，并从每个子图像中提取特征，然后将这些特征拼接起来，Trident可以有效地扩大感受野，从而提高分割性能。

技术框架：Trident框架主要包含三个阶段：1) 特征提取：使用CLIP和DINO从子图像中提取特征。2) 特征拼接和全局聚合：将提取的特征拼接起来，并使用SAM的编码器创建一个相关矩阵，用于全局聚合。3) 分割细化：将CLIP的粗分割输出转换为SAM的提示，进一步提高分割性能。整体流程是先将输入图像分割成多个重叠的子图像，然后分别使用CLIP和DINO提取每个子图像的特征。接下来，将这些特征拼接起来，并输入到SAM的图像编码器中。SAM的编码器会生成一个图像嵌入，该嵌入用于创建一个相关矩阵，用于全局聚合特征。最后，使用CLIP的粗分割结果作为SAM的提示，进一步细化分割结果。

关键创新：Trident的关键创新在于其splice-then-segment范式和利用SAM进行全局聚合。与传统的segment-then-splice方法不同，Trident先拼接特征，然后再进行分割，这使得它能够更好地利用高分辨率图像的细粒度语义信息。此外，Trident利用SAM的编码器创建一个相关矩阵，用于全局聚合特征，这有助于扩大感受野，提高分割性能。

关键设计：Trident的关键设计包括：1) 子图像的划分策略：将输入图像分割成多个重叠的子图像，以确保每个像素都被多个子图像覆盖。2) 特征拼接方式：将CLIP和DINO提取的特征拼接在一起，以融合不同模型的优势。3) 全局聚合方式：使用SAM的编码器创建一个相关矩阵，用于全局聚合特征。4) 分割细化策略：将CLIP的粗分割结果转换为SAM的提示，以进一步提高分割性能。具体来说，CLIP的分割结果被用作SAM的box prompt，指导SAM进行更精确的分割。

🖼️ 关键图片

📊 实验亮点

Trident在八个基准测试中实现了显著的性能提升，mIoU从44.4%提高到48.6%，超越了当前最先进的方法。实验结果表明，Trident的splice-then-segment范式和利用SAM进行全局聚合的策略是有效的。此外，Trident无需训练，具有很高的实用价值。

🎯 应用场景

Trident框架在开放词汇语义分割领域具有广泛的应用前景，例如自动驾驶、医学图像分析、遥感图像处理等。它可以帮助计算机理解图像中的内容，并识别出属于任意文本描述类别的物体，从而实现更智能化的图像分析和理解。未来，Trident可以进一步扩展到视频分割、3D场景理解等领域。

📄 摘要（原文）

While Contrastive Language-Image Pre-training (CLIP) has advanced open-vocabulary predictions, its performance on semantic segmentation remains suboptimal. This shortfall primarily stems from its spatial-invariant semantic features and constrained resolution. While previous adaptations addressed spatial invariance semantic by modifying the self-attention in CLIP's image encoder, the issue of limited resolution remains unexplored. Different from previous segment-then-splice methods that segment sub-images via a sliding window and splice the results, we introduce a splice-then-segment paradigm that incorporates Segment-Anything Model (SAM) to tackle the resolution issue since SAM excels at extracting fine-grained semantic correlations from high-resolution images. Specifically, we introduce Trident, a training-free framework that first splices features extracted by CLIP and DINO from sub-images, then leverages SAM's encoder to create a correlation matrix for global aggregation, enabling a broadened receptive field for effective segmentation. Besides, we propose a refinement strategy for CLIP's coarse segmentation outputs by transforming them into prompts for SAM, further enhancing the segmentation performance. Trident achieves a significant improvement in the mIoU across eight benchmarks compared with the current SOTA, increasing from 44.4 to 48.6.Code is available at https://github.com/YuHengsss/Trident.

Harnessing Vision Foundation Models for High-Performance, Training-Free Open Vocabulary Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理