DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception
作者: Junjie Wang, Bin Chen, Yulin Li, Bin Kang, Yichi Chen, Zhuotao Tian
分类: cs.CV
发布日期: 2025-05-07
🔗 代码/项目: GITHUB
💡 一句话要点
DeCLIP:解耦学习用于开放词汇密集感知,提升局部判别性和空间一致性。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放词汇学习 密集预测 视觉-语言模型 自注意力机制 解耦学习
📋 核心要点
- 现有密集视觉预测方法依赖预定义类别,限制了其在开放词汇场景的应用。
- DeCLIP通过解耦自注意力模块,分别学习内容和上下文特征,提升局部判别性和空间一致性。
- 实验结果表明,DeCLIP在开放词汇目标检测和语义分割等任务上显著优于现有方法。
📝 摘要(中文)
本文提出DeCLIP,旨在解决密集视觉预测任务中对预定义类别的依赖问题,从而扩展到视觉概念不受限制的真实场景。尽管像CLIP这样的视觉-语言模型(VLMs)在开放词汇任务中展现了潜力,但由于局部特征表示的局限性,直接应用于密集预测通常会导致次优性能。我们观察到CLIP的图像tokens难以有效地聚合来自空间或语义相关区域的信息,导致特征缺乏局部判别性和空间一致性。为了解决这个问题,我们提出了DeCLIP,通过解耦自注意力模块来分别获得“内容”和“上下文”特征,从而增强CLIP。“内容”特征与图像裁剪表示对齐,以提高局部判别性,而“上下文”特征在视觉基础模型(如DINO)的指导下学习保持空间相关性。大量实验表明,DeCLIP在包括目标检测和语义分割在内的多个开放词汇密集预测任务中显著优于现有方法。
🔬 方法详解
问题定义:现有密集视觉预测任务受限于预定义的类别,无法很好地泛化到开放词汇场景。直接应用CLIP等视觉-语言模型到密集预测任务时,由于CLIP的图像tokens难以有效聚合局部信息,导致特征缺乏局部判别性和空间一致性,性能不佳。
核心思路:DeCLIP的核心思路是将CLIP的自注意力模块解耦为“内容”和“上下文”两个分支,分别学习局部判别性特征和全局空间关系。通过这种解耦,模型可以更好地捕捉图像中的局部细节和全局结构,从而提升密集预测的性能。
技术框架:DeCLIP框架主要包含以下几个模块:1) CLIP图像编码器:用于提取图像的初始特征表示。2) 解耦自注意力模块:将CLIP的自注意力模块解耦为内容分支和上下文分支。3) 内容对齐模块:将内容分支的特征与图像裁剪表示对齐,以提高局部判别性。4) 上下文学习模块:在视觉基础模型(如DINO)的指导下,学习保持上下文分支特征的空间相关性。5) 密集预测头:用于将学习到的特征映射到最终的预测结果(例如,目标检测框或像素级别的语义标签)。
关键创新:DeCLIP的关键创新在于解耦自注意力模块,并分别学习内容和上下文特征。这种解耦使得模型能够同时关注局部细节和全局结构,从而克服了CLIP在密集预测任务中的局限性。与现有方法相比,DeCLIP不需要预定义类别,可以处理开放词汇场景下的密集预测任务。
关键设计:在内容对齐模块中,使用了对比学习损失来对齐内容特征和图像裁剪表示。上下文学习模块利用DINO等视觉基础模型提供的先验知识,通过知识蒸馏的方式来指导上下文特征的学习,保持空间相关性。具体的损失函数和网络结构细节需要在论文原文中查找。
🖼️ 关键图片
📊 实验亮点
DeCLIP在开放词汇目标检测和语义分割任务上取得了显著的性能提升。例如,在COCO数据集上,DeCLIP在开放词汇目标检测任务上优于现有方法多个百分点。实验结果表明,DeCLIP能够有效地学习局部判别性特征和全局空间关系,从而提高密集预测的准确性和鲁棒性。
🎯 应用场景
DeCLIP在开放词汇密集感知方面具有广泛的应用前景,例如智能安防、自动驾驶、遥感图像分析等领域。它可以用于检测和分割图像中未知的物体或场景,从而提高系统的智能化水平和适应性。未来,DeCLIP可以进一步扩展到视频理解、三维重建等更复杂的任务中。
📄 摘要(原文)
Dense visual prediction tasks have been constrained by their reliance on predefined categories, limiting their applicability in real-world scenarios where visual concepts are unbounded. While Vision-Language Models (VLMs) like CLIP have shown promise in open-vocabulary tasks, their direct application to dense prediction often leads to suboptimal performance due to limitations in local feature representation. In this work, we present our observation that CLIP's image tokens struggle to effectively aggregate information from spatially or semantically related regions, resulting in features that lack local discriminability and spatial consistency. To address this issue, we propose DeCLIP, a novel framework that enhances CLIP by decoupling the self-attention module to obtain
content'' andcontext'' features respectively. Thecontent'' features are aligned with image crop representations to improve local discriminability, whilecontext'' features learn to retain the spatial correlations under the guidance of vision foundation models, such as DINO. Extensive experiments demonstrate that DeCLIP significantly outperforms existing methods across multiple open-vocabulary dense prediction tasks, including object detection and semantic segmentation. Code is available at \textcolor{magenta}{https://github.com/xiaomoguhz/DeCLIP}.