ProxyCLIP: Proxy Attention Improves CLIP for Open-Vocabulary Segmentation

📄 arXiv: 2408.04883v1 📥 PDF

作者: Mengcheng Lan, Chaofeng Chen, Yiping Ke, Xinjiang Wang, Litong Feng, Wayne Zhang

分类: cs.CV

发布日期: 2024-08-09

备注: Accepted to ECCV 2024. Code available at https://github.com/mc-lan/ProxyCLIP


💡 一句话要点

提出ProxyCLIP以解决开放词汇语义分割问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放词汇分割 CLIP 视觉基础模型 代理注意力 语义理解 空间一致性 无训练方法 图像分割

📋 核心要点

  1. 现有的CLIP模型在开放词汇语义分割中面临局部化能力不足的问题,导致分割一致性差。
  2. ProxyCLIP通过将VFM的空间特征作为代理注意力来增强CLIP,旨在结合两者的优势。
  3. 实验结果显示,ProxyCLIP在八个基准测试中的mIoU从40.3提升至44.4,显著提高了分割性能。

📝 摘要(中文)

开放词汇语义分割要求模型有效整合视觉表征与开放词汇语义标签。尽管对比语言-图像预训练(CLIP)模型在识别文本中的视觉概念方面表现出色,但由于局部化能力有限,它们在分割一致性方面常常面临挑战。相反,视觉基础模型(VFM)在获取空间一致的局部视觉表征方面表现优异,但在语义理解上存在不足。本文提出了ProxyCLIP,一个创新框架,旨在协调CLIP与VFM的优势,从而增强开放词汇语义分割能力。ProxyCLIP利用VFM的空间特征对应作为代理注意力来增强CLIP,继承VFM的强大局部一致性,同时保持CLIP卓越的零样本迁移能力。通过提出自适应归一化和掩蔽策略,从VFM中获取代理注意力,允许在不同VFM之间进行适配。值得注意的是,作为一种无训练的方法,ProxyCLIP在八个基准测试中的平均交并比(mIoU)显著提高,从40.3提升至44.4,展示了其在空间精度与语义丰富性之间架起桥梁的卓越效能。

🔬 方法详解

问题定义:本文旨在解决开放词汇语义分割中,CLIP模型因局部化能力不足而导致的分割一致性差的问题。现有方法在空间精度和语义理解之间存在明显的鸿沟。

核心思路:ProxyCLIP的核心思路是利用VFM的空间特征作为代理注意力来增强CLIP,从而结合VFM的局部一致性与CLIP的零样本迁移能力。这种设计使得模型能够在保持语义丰富性的同时,提升空间精度。

技术框架:ProxyCLIP的整体架构包括两个主要模块:一是从VFM中提取空间特征,二是将这些特征作为代理注意力输入到CLIP中。通过自适应归一化和掩蔽策略,模型能够适应不同的VFM。

关键创新:ProxyCLIP的主要创新在于其无训练的特性,能够在不同的VFM之间灵活适配,同时显著提升了开放词汇语义分割的性能。这一方法有效地弥补了CLIP与VFM之间的不足。

关键设计:在设计中,ProxyCLIP采用了自适应归一化和掩蔽策略,以获取代理注意力。此外,模型的损失函数和网络结构经过精心设计,以确保在不同任务和数据集上均能表现出色。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ProxyCLIP在八个基准测试中的平均交并比(mIoU)从40.3提升至44.4,展示了其在开放词汇语义分割任务中的显著效果。这一提升幅度表明,ProxyCLIP在空间精度与语义丰富性之间架起了有效的桥梁。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶、医学影像分析和机器人视觉等。通过提升开放词汇语义分割的性能,ProxyCLIP能够在多种实际场景中实现更精准的物体识别与分割,为相关领域的智能化发展提供支持。

📄 摘要(原文)

Open-vocabulary semantic segmentation requires models to effectively integrate visual representations with open-vocabulary semantic labels. While Contrastive Language-Image Pre-training (CLIP) models shine in recognizing visual concepts from text, they often struggle with segment coherence due to their limited localization ability. In contrast, Vision Foundation Models (VFMs) excel at acquiring spatially consistent local visual representations, yet they fall short in semantic understanding. This paper introduces ProxyCLIP, an innovative framework designed to harmonize the strengths of both CLIP and VFMs, facilitating enhanced open-vocabulary semantic segmentation. ProxyCLIP leverages the spatial feature correspondence from VFMs as a form of proxy attention to augment CLIP, thereby inheriting the VFMs' robust local consistency and maintaining CLIP's exceptional zero-shot transfer capacity. We propose an adaptive normalization and masking strategy to get the proxy attention from VFMs, allowing for adaptation across different VFMs. Remarkably, as a training-free approach, ProxyCLIP significantly improves the average mean Intersection over Union (mIoU) across eight benchmarks from 40.3 to 44.4, showcasing its exceptional efficacy in bridging the gap between spatial precision and semantic richness for the open-vocabulary segmentation task.