Harnessing Vision Foundation Models for High-Performance, Training-Free Open Vocabulary Segmentation
作者: Yuheng Shi, Minjing Dong, Chang Xu
分类: cs.CV
发布日期: 2024-11-14
备注: 12 pages, 5 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出Trident框架,无需训练即可实现高性能开放词汇分割
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放词汇分割 语义分割 CLIP SAM 特征拼接 全局聚合 无需训练
📋 核心要点
- 现有开放词汇分割方法受限于CLIP的空间不变性和低分辨率特征,导致分割性能不佳。
- Trident框架采用splice-then-segment范式,结合CLIP、DINO和SAM,有效利用高分辨率图像的细粒度语义信息。
- 通过特征拼接、全局聚合和提示细化等策略,Trident在多个基准测试中显著提升了分割精度。
📝 摘要(中文)
对比语言-图像预训练(CLIP)在开放词汇预测方面取得了进展,但其在语义分割上的表现仍不理想。这主要是由于其空间不变的语义特征和有限的分辨率。虽然之前的研究通过修改CLIP图像编码器中的自注意力机制来解决空间不变性问题,但有限分辨率的问题仍未被探索。与之前通过滑动窗口分割子图像然后拼接结果的segment-then-splice方法不同,我们引入了一种splice-then-segment范式,该范式结合了Segment-Anything Model(SAM)来解决分辨率问题,因为SAM擅长从高分辨率图像中提取细粒度的语义相关性。具体来说,我们引入了Trident,这是一个无需训练的框架,它首先拼接由CLIP和DINO从子图像中提取的特征,然后利用SAM的编码器创建一个相关矩阵用于全局聚合,从而扩大了感受野以实现有效的分割。此外,我们提出了一种细化策略,通过将CLIP的粗分割输出转换为SAM的提示,进一步提高了分割性能。与当前SOTA相比,Trident在八个基准测试中实现了mIoU的显著提升,从44.4提高到48.6。
🔬 方法详解
问题定义:开放词汇语义分割旨在识别图像中属于任意文本描述类别的像素。现有方法,特别是基于CLIP的方法,在语义分割任务中表现不佳,主要原因是CLIP提取的特征具有空间不变性,并且分辨率有限。这导致难以准确分割图像中的细小物体和复杂场景。之前的研究主要集中于解决空间不变性问题,而忽略了分辨率的限制。
核心思路:Trident的核心思路是采用一种splice-then-segment的范式,即先拼接从子图像中提取的特征,然后再进行分割。这种方法利用了Segment-Anything Model (SAM) 在处理高分辨率图像和提取细粒度语义相关性方面的优势。通过将图像分割成多个子图像,并从每个子图像中提取特征,然后将这些特征拼接起来,Trident可以有效地扩大感受野,从而提高分割性能。
技术框架:Trident框架主要包含三个阶段:1) 特征提取:使用CLIP和DINO从子图像中提取特征。2) 特征拼接和全局聚合:将提取的特征拼接起来,并使用SAM的编码器创建一个相关矩阵,用于全局聚合。3) 分割细化:将CLIP的粗分割输出转换为SAM的提示,进一步提高分割性能。整体流程是先将输入图像分割成多个重叠的子图像,然后分别使用CLIP和DINO提取每个子图像的特征。接下来,将这些特征拼接起来,并输入到SAM的图像编码器中。SAM的编码器会生成一个图像嵌入,该嵌入用于创建一个相关矩阵,用于全局聚合特征。最后,使用CLIP的粗分割结果作为SAM的提示,进一步细化分割结果。
关键创新:Trident的关键创新在于其splice-then-segment范式和利用SAM进行全局聚合。与传统的segment-then-splice方法不同,Trident先拼接特征,然后再进行分割,这使得它能够更好地利用高分辨率图像的细粒度语义信息。此外,Trident利用SAM的编码器创建一个相关矩阵,用于全局聚合特征,这有助于扩大感受野,提高分割性能。
关键设计:Trident的关键设计包括:1) 子图像的划分策略:将输入图像分割成多个重叠的子图像,以确保每个像素都被多个子图像覆盖。2) 特征拼接方式:将CLIP和DINO提取的特征拼接在一起,以融合不同模型的优势。3) 全局聚合方式:使用SAM的编码器创建一个相关矩阵,用于全局聚合特征。4) 分割细化策略:将CLIP的粗分割结果转换为SAM的提示,以进一步提高分割性能。具体来说,CLIP的分割结果被用作SAM的box prompt,指导SAM进行更精确的分割。
🖼️ 关键图片
📊 实验亮点
Trident在八个基准测试中实现了显著的性能提升,mIoU从44.4%提高到48.6%,超越了当前最先进的方法。实验结果表明,Trident的splice-then-segment范式和利用SAM进行全局聚合的策略是有效的。此外,Trident无需训练,具有很高的实用价值。
🎯 应用场景
Trident框架在开放词汇语义分割领域具有广泛的应用前景,例如自动驾驶、医学图像分析、遥感图像处理等。它可以帮助计算机理解图像中的内容,并识别出属于任意文本描述类别的物体,从而实现更智能化的图像分析和理解。未来,Trident可以进一步扩展到视频分割、3D场景理解等领域。
📄 摘要(原文)
While Contrastive Language-Image Pre-training (CLIP) has advanced open-vocabulary predictions, its performance on semantic segmentation remains suboptimal. This shortfall primarily stems from its spatial-invariant semantic features and constrained resolution. While previous adaptations addressed spatial invariance semantic by modifying the self-attention in CLIP's image encoder, the issue of limited resolution remains unexplored. Different from previous segment-then-splice methods that segment sub-images via a sliding window and splice the results, we introduce a splice-then-segment paradigm that incorporates Segment-Anything Model (SAM) to tackle the resolution issue since SAM excels at extracting fine-grained semantic correlations from high-resolution images. Specifically, we introduce Trident, a training-free framework that first splices features extracted by CLIP and DINO from sub-images, then leverages SAM's encoder to create a correlation matrix for global aggregation, enabling a broadened receptive field for effective segmentation. Besides, we propose a refinement strategy for CLIP's coarse segmentation outputs by transforming them into prompts for SAM, further enhancing the segmentation performance. Trident achieves a significant improvement in the mIoU across eight benchmarks compared with the current SOTA, increasing from 44.4 to 48.6.Code is available at https://github.com/YuHengsss/Trident.