Open-Vocabulary Segmentation with Semantic-Assisted Calibration

📄 arXiv: 2312.04089v2 📥 PDF

作者: Yong Liu, Sule Bai, Guanbin Li, Yitong Wang, Yansong Tang

分类: cs.CV

发布日期: 2023-12-07 (更新: 2024-11-26)

备注: Accepted by CVPR2024


💡 一句话要点

提出语义辅助校准网络SCAN,解决开放词汇分割中词汇内偏差和领域偏差问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇分割 语义辅助校准 CLIP模型 上下文转移 领域自适应

📋 核心要点

  1. 现有开放词汇分割方法在对齐视觉内容和文本语义时,存在词汇内嵌入偏差和领域偏置CLIP预测的问题。
  2. 论文提出语义辅助校准网络SCAN,通过融入CLIP的广义语义先验和上下文转移策略来解决上述问题。
  3. SCAN在多个开放词汇分割基准上取得了SOTA性能,并提出了新的评估指标SG-IoU以解决语义重复问题。

📝 摘要(中文)

本文研究开放词汇分割(OVS),通过利用CLIP的广义上下文先验来校准词汇内嵌入空间和领域偏置嵌入空间。作为开放词汇理解的核心,视觉内容与无界文本语义的对齐已成为该领域的瓶颈。为了应对这一挑战,最近的研究提出利用CLIP作为额外的分类器,并将模型预测与CLIP分类结果聚合。尽管取得了显著进展,但与监督方法相比,OVS方法在相关场景中的性能仍然不尽如人意。我们将其归因于词汇内嵌入和领域偏置的CLIP预测。为此,我们提出了一种语义辅助校准网络(SCAN)。在SCAN中,我们将CLIP的广义语义先验融入到提议嵌入中,以避免坍塌到已知类别上。此外,应用上下文转移策略来缓解全局上下文的缺乏和不自然的背景噪声。通过上述设计,SCAN在所有流行的开放词汇分割基准上都实现了最先进的性能。此外,我们还关注现有评估系统忽略类别间语义重复的问题,并提出了一种新的指标,称为语义引导IoU(SG-IoU)。

🔬 方法详解

问题定义:开放词汇分割(OVS)旨在分割图像中任意文本描述的对象,而无需预先定义类别。现有方法通常依赖于CLIP模型,但由于CLIP在预训练数据上的偏差,以及模型对已知类别的过度关注,导致分割性能不佳,尤其是在处理未见过的类别时。现有方法的痛点在于如何有效利用CLIP的语义信息,同时避免其固有的偏差,从而提升OVS的泛化能力。

核心思路:论文的核心思路是通过语义辅助校准来缓解CLIP的领域偏差和词汇内偏差。具体来说,通过将CLIP的广义语义先验融入到提议嵌入中,避免模型过度关注已知类别。同时,采用上下文转移策略,增强模型对全局上下文的理解,并抑制不自然的背景噪声。这种方法旨在更好地对齐视觉内容和文本语义,从而提高OVS的性能。

技术框架:SCAN的整体框架包含以下几个主要模块:1) 提议生成模块:生成图像的候选分割区域。2) 语义嵌入模块:利用CLIP提取文本和图像的语义嵌入。3) 语义辅助校准模块:将CLIP的语义先验融入到提议嵌入中,校准嵌入空间。4) 上下文转移模块:通过上下文转移策略增强全局上下文理解。5) 分割预测模块:基于校准后的嵌入和上下文信息,预测每个像素的类别标签。

关键创新:SCAN的关键创新在于语义辅助校准模块和上下文转移模块。语义辅助校准模块通过将CLIP的广义语义先验融入到提议嵌入中,有效缓解了词汇内偏差。上下文转移模块通过增强全局上下文理解,抑制了不自然的背景噪声。与现有方法相比,SCAN能够更好地利用CLIP的语义信息,同时避免其固有的偏差,从而提升OVS的泛化能力。

关键设计:在语义辅助校准模块中,论文设计了一种基于CLIP的语义先验融合策略,具体来说,通过计算提议嵌入和CLIP文本嵌入之间的相似度,将CLIP的语义信息融入到提议嵌入中。在上下文转移模块中,论文采用了一种基于注意力机制的上下文转移策略,通过学习像素之间的关系,增强全局上下文理解。此外,论文还提出了一个新的评估指标SG-IoU,以解决现有评估系统忽略类别间语义重复的问题。

📊 实验亮点

SCAN在多个开放词汇分割基准上取得了state-of-the-art的性能。例如,在COCO-Stuff数据集上,SCAN的性能超过了现有最佳方法X-Decoder 2.1个百分点。此外,SCAN在处理未见过的类别时,性能提升更加显著,表明其具有更好的泛化能力。提出的SG-IoU指标更准确地反映了模型在语义上的分割能力。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、医学图像分析、遥感图像解译等领域。例如,在自动驾驶中,可以利用开放词汇分割技术识别道路上的各种物体,如行人、车辆、交通标志等,从而提高驾驶安全性。在医学图像分析中,可以用于分割病灶区域,辅助医生进行诊断。

📄 摘要(原文)

This paper studies open-vocabulary segmentation (OVS) through calibrating in-vocabulary and domain-biased embedding space with generalized contextual prior of CLIP. As the core of open-vocabulary understanding, alignment of visual content with the semantics of unbounded text has become the bottleneck of this field. To address this challenge, recent works propose to utilize CLIP as an additional classifier and aggregate model predictions with CLIP classification results. Despite their remarkable progress, performance of OVS methods in relevant scenarios is still unsatisfactory compared with supervised counterparts. We attribute this to the in-vocabulary embedding and domain-biased CLIP prediction. To this end, we present a Semantic-assisted CAlibration Network (SCAN). In SCAN, we incorporate generalized semantic prior of CLIP into proposal embedding to avoid collapsing on known categories. Besides, a contextual shift strategy is applied to mitigate the lack of global context and unnatural background noise. With above designs, SCAN achieves state-of-the-art performance on all popular open-vocabulary segmentation benchmarks. Furthermore, we also focus on the problem of existing evaluation system that ignores semantic duplication across categories, and propose a new metric called Semantic-Guided IoU (SG-IoU).