CoPatch: Zero-Shot Referring Image Segmentation by Leveraging Untapped Spatial Knowledge in CLIP
作者: Na Min An, Inha Kang, Minhyun Lee, Hyunjung Shim
分类: cs.CV, cs.AI
发布日期: 2025-09-27
备注: 28 pages, 22 Figures, 11 Tables
💡 一句话要点
CoPatch:利用CLIP中未开发的 spatial knowledge 实现零样本指代图像分割
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: 指代图像分割 零样本学习 视觉-语言模型 CLIP 空间关系 上下文信息 图像特征提取
📋 核心要点
- 现有指代图像分割方法依赖的CLIP模型在空间关系理解上存在不足,限制了其性能。
- CoPatch通过挖掘CLIP模型内部组件,增强文本和图像模态的空间表示,从而提升分割精度。
- 实验表明,CoPatch在多个数据集上显著提升了零样本指代图像分割的性能,mIoU提升2-7个百分点。
📝 摘要(中文)
空间定位对于指代图像分割(RIS)至关重要,该任务旨在定位由语言描述的对象。当前的视觉-语言基础模型(VLMs),如CLIP,擅长对齐图像和文本,但在理解空间关系方面存在困难。在语言流中,现有方法通常侧重于提取局部文本特征时的主要名词短语,从而削弱了上下文token。在视觉流中,CLIP为具有不同空间布局的图像生成相似的特征,导致对空间结构的敏感性有限。为了解决这些限制,我们提出了CoPatch,一个零样本RIS框架,它利用内部模型组件来增强文本和图像模态中的空间表示。对于语言,CoPatch通过结合携带空间线索的上下文token来构建混合文本特征。对于视觉,它使用我们从中间层发现的新路径提取patch级别的图像特征,其中空间结构得到更好的保留。这些增强的特征被融合到聚类的图像-文本相似度图CoMap中,从而实现精确的mask选择。因此,CoPatch在RefCOCO、RefCOCO+、RefCOCOg和PhraseCut上显著提高了零样本RIS中的空间定位(+2--7 mIoU),而无需任何额外的训练。我们的发现强调了恢复和利用VLMs中固有嵌入的未开发空间知识的重要性,从而为零样本RIS开辟了机会。
🔬 方法详解
问题定义:论文旨在解决零样本指代图像分割(Zero-Shot Referring Image Segmentation, RIS)任务中,现有方法无法有效利用CLIP等视觉-语言模型(VLM)中蕴含的空间信息的问题。现有方法通常只关注文本中的主要名词短语,忽略了上下文信息,并且CLIP对不同空间布局的图像提取的特征相似,导致空间定位能力不足。
核心思路:论文的核心思路是挖掘并增强CLIP模型中未被充分利用的空间知识。具体来说,通过融合文本中的上下文token来增强文本特征的空间表达,并通过特定的中间层路径提取图像的patch级别特征,以保留更丰富的空间结构信息。
技术框架:CoPatch框架主要包含两个分支:文本特征增强分支和图像特征增强分支。文本特征增强分支通过融合上下文token来构建混合文本特征。图像特征增强分支通过特定的中间层路径提取patch级别的图像特征。然后,将增强后的文本和图像特征融合到聚类的图像-文本相似度图(CoMap)中,最后基于CoMap进行mask选择,得到分割结果。
关键创新:论文的关键创新在于:1) 提出了一种融合上下文token的混合文本特征表示方法,能够更好地捕捉文本中的空间信息;2) 发现并利用了CLIP模型中间层中能够更好保留空间结构的图像特征提取路径;3) 提出了基于聚类的图像-文本相似度图(CoMap)用于精确的mask选择。
关键设计:在文本特征增强分支中,具体如何选择和融合上下文token的权重是一个关键设计。在图像特征增强分支中,选择哪个中间层以及如何提取patch级别的特征是关键。CoMap的聚类算法和mask选择策略也是重要的技术细节。论文中可能使用了特定的损失函数来优化CoMap的聚类效果,但具体细节未知。
🖼️ 关键图片
📊 实验亮点
CoPatch在零样本指代图像分割任务上取得了显著的性能提升。在RefCOCO、RefCOCO+、RefCOCOg和PhraseCut数据集上,CoPatch的mIoU分别提升了2-7个百分点,无需任何额外的训练。这表明CoPatch能够有效挖掘和利用CLIP模型中蕴含的空间知识,提升空间定位能力。
🎯 应用场景
该研究成果可应用于智能图像编辑、人机交互、机器人视觉等领域。例如,在智能图像编辑中,用户可以通过自然语言指定需要编辑的对象,系统自动分割并进行相应操作。在机器人视觉中,机器人可以根据指令定位并操作特定物体。该研究有助于提升视觉-语言模型的空间理解能力,推动相关技术的发展。
📄 摘要(原文)
Spatial grounding is crucial for referring image segmentation (RIS), where the goal of the task is to localize an object described by language. Current foundational vision-language models (VLMs), such as CLIP, excel at aligning images and text but struggle with understanding spatial relationships. Within the language stream, most existing methods often focus on the primary noun phrase when extracting local text features, undermining contextual tokens. Within the vision stream, CLIP generates similar features for images with different spatial layouts, resulting in limited sensitivity to spatial structure. To address these limitations, we propose \textsc{CoPatch}, a zero-shot RIS framework that leverages internal model components to enhance spatial representations in both text and image modalities. For language, \textsc{CoPatch} constructs hybrid text features by incorporating context tokens carrying spatial cues. For vision, it extracts patch-level image features using our novel path discovered from intermediate layers, where spatial structure is better preserved. These enhanced features are fused into a clustered image-text similarity map, \texttt{CoMap}, enabling precise mask selection. As a result, \textsc{CoPatch} significantly improves spatial grounding in zero-shot RIS across RefCOCO, RefCOCO+, RefCOCOg, and PhraseCut (+ 2--7 mIoU) without requiring any additional training. Our findings underscore the importance of recovering and leveraging the untapped spatial knowledge inherently embedded in VLMs, thereby paving the way for opportunities in zero-shot RIS.