Exploring CLIP's Dense Knowledge for Weakly Supervised Semantic Segmentation

📄 arXiv: 2503.20826v1 📥 PDF

作者: Zhiwei Yang, Yucong Meng, Kexue Fu, Feilong Tang, Shuo Wang, Zhijian Song

分类: cs.CV, cs.CL, cs.LG, eess.IV

发布日期: 2025-03-26

备注: CVPR2025


💡 一句话要点

提出ExCEL,通过patch-text对齐探索CLIP的密集知识,用于弱监督语义分割

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 弱监督语义分割 CLIP patch-text对齐 文本语义增强 视觉校准

📋 核心要点

  1. 现有弱监督语义分割方法侧重于图像-文本对齐,忽略了CLIP在patch-text对齐方面的潜力,导致像素级预测精度受限。
  2. ExCEL通过文本语义增强和视觉校准模块,提升文本和视觉模态之间的密集对齐,从而更有效地利用CLIP的知识。
  3. 实验表明,ExCEL在PASCAL VOC和MS COCO数据集上,以更低的训练成本显著超越了现有最佳方法。

📝 摘要(中文)

本文提出了一种名为ExCEL的方法,旨在探索CLIP在弱监督语义分割(WSSS)中的密集知识,特别是通过新颖的patch-text对齐范式。现有方法主要关注图像-文本对齐以生成类激活图(CAMs),而忽略了CLIP在patch-text对齐方面的潜力。ExCEL通过文本语义增强(TSE)和视觉校准(VC)模块来改善文本和视觉模态之间的密集对齐。TSE模块利用大型语言模型(LLMs)构建数据集范围的知识库,并通过隐式的属性挖掘过程来丰富文本表示。VC模块首先提出静态视觉校准(SVC)以非参数方式传播细粒度知识,然后提出可学习视觉校准(LVC)以动态地将冻结的特征转移到具有多样语义的分布。ExCEL不仅保留了CLIP的免训练优势,而且在PASCAL VOC和MS COCO上以更低的训练成本显著优于其他最先进的方法。

🔬 方法详解

问题定义:弱监督语义分割(WSSS)旨在仅使用图像级别的标签来实现像素级别的预测。现有的基于CLIP的WSSS方法主要关注图像级别的文本-图像对齐,而忽略了CLIP模型中蕴含的patch级别的密集知识,这限制了CAMs的生成质量和分割性能。

核心思路:本文的核心思路是通过探索CLIP的patch-text对齐能力,更充分地利用CLIP的密集知识。具体来说,通过增强文本语义表示和校准视觉特征,从而提高patch和text之间的对齐精度,进而提升弱监督语义分割的性能。

技术框架:ExCEL包含两个主要模块:文本语义增强(TSE)和视觉校准(VC)。TSE模块利用大型语言模型构建数据集范围的知识库,并使用属性挖掘来丰富文本表示。VC模块包含静态视觉校准(SVC)和可学习视觉校准(LVC)。SVC以非参数方式传播细粒度知识,LVC动态地将冻结的视觉特征转移到具有多样语义的分布。整体流程是先使用TSE增强文本表示,然后使用VC校准视觉特征,最后进行patch-text对齐以生成CAMs。

关键创新:ExCEL的关键创新在于提出了patch-text对齐的范式,并设计了TSE和VC模块来分别增强文本和视觉模态的表示。TSE模块利用LLM进行知识库构建和属性挖掘,VC模块通过SVC和LVC实现静态和动态的视觉特征校准。与现有方法相比,ExCEL更充分地利用了CLIP的密集知识,实现了更精确的像素级预测。

关键设计:TSE模块中,使用LLM(具体模型未知)生成数据集范围的知识库,并设计了属性挖掘算法(具体细节未知)来丰富文本表示。VC模块中,SVC使用非参数的方式进行知识传播(具体实现未知),LVC使用可学习的参数来动态调整视觉特征的分布(具体网络结构和损失函数未知)。损失函数的设计目标是最大化patch和对应文本之间的相似度,同时最小化patch和非对应文本之间的相似度(具体公式未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ExCEL在PASCAL VOC 2012数据集上取得了显著的性能提升,mIOU达到了X%(具体数值未知),超越了现有最佳方法Y%(具体数值未知)。在MS COCO数据集上也取得了类似的性能提升,证明了ExCEL的有效性和泛化能力。更重要的是,ExCEL在取得更好性能的同时,还降低了训练成本。

🎯 应用场景

该研究成果可应用于图像理解、目标检测、自动驾驶等领域。通过更精确的语义分割,可以提升计算机视觉系统对场景的理解能力,从而改善相关应用的性能和可靠性。例如,在自动驾驶中,更准确的语义分割可以帮助车辆更好地识别道路、行人和其他车辆,从而提高驾驶安全性。

📄 摘要(原文)

Weakly Supervised Semantic Segmentation (WSSS) with image-level labels aims to achieve pixel-level predictions using Class Activation Maps (CAMs). Recently, Contrastive Language-Image Pre-training (CLIP) has been introduced in WSSS. However, recent methods primarily focus on image-text alignment for CAM generation, while CLIP's potential in patch-text alignment remains unexplored. In this work, we propose ExCEL to explore CLIP's dense knowledge via a novel patch-text alignment paradigm for WSSS. Specifically, we propose Text Semantic Enrichment (TSE) and Visual Calibration (VC) modules to improve the dense alignment across both text and vision modalities. To make text embeddings semantically informative, our TSE module applies Large Language Models (LLMs) to build a dataset-wide knowledge base and enriches the text representations with an implicit attribute-hunting process. To mine fine-grained knowledge from visual features, our VC module first proposes Static Visual Calibration (SVC) to propagate fine-grained knowledge in a non-parametric manner. Then Learnable Visual Calibration (LVC) is further proposed to dynamically shift the frozen features towards distributions with diverse semantics. With these enhancements, ExCEL not only retains CLIP's training-free advantages but also significantly outperforms other state-of-the-art methods with much less training cost on PASCAL VOC and MS COCO.