CLIPer: Hierarchically Improving Spatial Representation of CLIP for Open-Vocabulary Semantic Segmentation

📄 arXiv: 2411.13836v1 📥 PDF

作者: Lin Sun, Jiale Cao, Jin Xie, Xiaoheng Jiang, Yanwei Pang

分类: cs.CV

发布日期: 2024-11-21

备注: Homepange and code: https://linsun449.github.io/cliper


💡 一句话要点

CLIPer:通过分层改进CLIP空间表示,实现开放词汇语义分割

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放词汇语义分割 CLIP 分层表示 早期层融合 精细补偿 空间信息 扩散模型

📋 核心要点

  1. 现有方法难以有效利用CLIP进行开放词汇语义分割,尤其是在空间信息保持方面存在不足。
  2. CLIPer通过早期层融合和精细补偿,分层改进CLIP的空间表示,从而提升分割性能。
  3. 实验结果表明,CLIPer在多个数据集上取得了SOTA性能,显著优于现有方法,例如ProxyCLIP。

📝 摘要(中文)

对比语言-图像预训练(CLIP)在各种图像级任务上表现出强大的零样本分类能力,这促使研究人员将CLIP应用于像素级开放词汇语义分割,而无需额外训练。关键在于改进图像级CLIP的空间表示,例如用自-自注意力图或基于视觉基础模型的注意力图替换最后一层的自注意力图。本文提出了一种新的分层框架,名为CLIPer,它分层地改进CLIP的空间表示。所提出的CLIPer包括一个早期层融合模块和一个精细补偿模块。我们观察到,早期层的嵌入和注意力图可以保留空间结构信息。受此启发,我们设计了早期层融合模块,以生成具有更好空间连贯性的分割图。之后,我们使用扩散模型的自注意力图,采用精细补偿模块来补偿局部细节。我们在七个分割数据集上进行了实验。我们提出的CLIPer在这些数据集上实现了最先进的性能。例如,使用ViT-L,CLIPer在VOC和COCO Object上的mIoU分别为69.8%和43.3%,分别优于ProxyCLIP 9.2%和4.1%。

🔬 方法详解

问题定义:开放词汇语义分割旨在识别图像中每个像素的语义类别,而无需预先定义所有类别。现有的基于CLIP的方法通常难以充分利用CLIP模型中蕴含的空间信息,导致分割结果的空间一致性较差,细节信息丢失严重。ProxyCLIP等方法虽然尝试改进,但仍有较大的提升空间。

核心思路:CLIPer的核心思路是分层地利用CLIP模型不同层的特征,早期层保留了更多的空间结构信息,而深层则更关注语义信息。通过融合早期层的特征,可以提升分割结果的空间连贯性。同时,利用扩散模型的自注意力图来补偿局部细节,进一步提升分割精度。

技术框架:CLIPer框架主要包含两个模块:早期层融合模块和精细补偿模块。首先,早期层融合模块将CLIP早期层的嵌入和注意力图进行融合,生成初步的分割图,该分割图具有较好的空间连贯性。然后,精细补偿模块利用扩散模型的自注意力图,对初步分割图进行细节补偿,从而得到最终的分割结果。

关键创新:CLIPer的关键创新在于分层利用CLIP模型的特征,并结合扩散模型的自注意力图。早期层融合模块能够有效利用CLIP早期层的空间信息,而精细补偿模块则能够补偿局部细节,从而提升分割精度。这种分层结构能够更好地利用CLIP模型的优势,并克服其在空间信息表示方面的不足。

关键设计:早期层融合模块的具体实现方式未知,论文中可能没有详细描述。精细补偿模块利用扩散模型的自注意力图,具体如何与初步分割图进行融合也未知。损失函数和网络结构等技术细节在摘要中没有提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CLIPer在七个分割数据集上取得了SOTA性能。例如,使用ViT-L作为骨干网络,CLIPer在VOC和COCO Object数据集上的mIoU分别达到了69.8%和43.3%,相比于ProxyCLIP分别提升了9.2%和4.1%。这些结果表明,CLIPer能够有效提升开放词汇语义分割的性能。

🎯 应用场景

CLIPer在开放词汇语义分割领域具有广泛的应用前景,例如自动驾驶、遥感图像分析、医学图像诊断等。它可以用于识别图像中未知的物体类别,从而提高系统的鲁棒性和适应性。此外,CLIPer还可以应用于图像编辑、图像生成等领域,为用户提供更加灵活和智能的图像处理工具。

📄 摘要(原文)

Contrastive Language-Image Pre-training (CLIP) exhibits strong zero-shot classification ability on various image-level tasks, leading to the research to adapt CLIP for pixel-level open-vocabulary semantic segmentation without additional training. The key is to improve spatial representation of image-level CLIP, such as replacing self-attention map at last layer with self-self attention map or vision foundation model based attention map. In this paper, we present a novel hierarchical framework, named CLIPer, that hierarchically improves spatial representation of CLIP. The proposed CLIPer includes an early-layer fusion module and a fine-grained compensation module. We observe that, the embeddings and attention maps at early layers can preserve spatial structural information. Inspired by this, we design the early-layer fusion module to generate segmentation map with better spatial coherence. Afterwards, we employ a fine-grained compensation module to compensate the local details using the self-attention maps of diffusion model. We conduct the experiments on seven segmentation datasets. Our proposed CLIPer achieves the state-of-the-art performance on these datasets. For instance, using ViT-L, CLIPer has the mIoU of 69.8% and 43.3% on VOC and COCO Object, outperforming ProxyCLIP by 9.2% and 4.1% respectively.