Mask-Adapter: The Devil is in the Masks for Open-Vocabulary Segmentation

📄 arXiv: 2412.04533v2 📥 PDF

作者: Yongkang Li, Tianheng Cheng, Bin Feng, Wenyu Liu, Xinggang Wang

分类: cs.CV

发布日期: 2024-12-05 (更新: 2025-03-10)

备注: Accepted by CVPR 2025; Code & models: https://github.com/hustvl/MaskAdapter

🔗 代码/项目: GITHUB


💡 一句话要点

Mask-Adapter:通过优化Mask提升开放词汇分割性能

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇分割 Mask Pooling CLIP 语义激活图 Mask-Adapter

📋 核心要点

  1. 现有开放词汇分割方法依赖mask pooling,但准确的mask往往无法产生准确的分类结果,限制了性能。
  2. Mask-Adapter通过从proposal mask提取语义激活图,提供更丰富的上下文信息,并对齐mask与CLIP特征。
  3. 实验表明,Mask-Adapter显著提升了现有开放词汇分割方法的性能,并成功扩展到SAM模型。

📝 摘要(中文)

最近的开放词汇分割方法采用mask生成器来预测分割mask,并利用预训练的视觉-语言模型(如CLIP)通过mask pooling来分类这些mask。然而,一个反直觉的现象是,准确的mask往往无法通过在mask区域内pooling CLIP图像嵌入来产生准确的分类结果。本文揭示了mask pooling的性能局限性,并引入了Mask-Adapter,一种简单而有效的方法来解决开放词汇分割中的这些挑战。与直接使用proposal mask相比,我们提出的Mask-Adapter从proposal mask中提取语义激活图,提供更丰富的上下文信息,并确保mask和CLIP之间的一致性。此外,我们提出了一种mask一致性损失,鼓励具有相似IoU的proposal mask获得相似的CLIP嵌入,以增强模型对不同预测mask的鲁棒性。Mask-Adapter以即插即用的方式无缝集成到基于mask pooling的开放词汇分割方法中,从而提供更准确的分类结果。在多个zero-shot基准测试中进行的大量实验表明,所提出的Mask-Adapter在几种已建立的方法上实现了显着的性能提升。值得注意的是,Mask-Adapter还可以有效地扩展到SAM,并在多个开放词汇分割数据集上取得了令人印象深刻的结果。

🔬 方法详解

问题定义:开放词汇分割旨在识别图像中任意文本描述的物体,现有方法依赖于mask proposal和CLIP等视觉-语言模型。然而,直接使用mask区域pooling CLIP特征进行分类存在局限性,即使是高质量的mask也可能导致错误的分类结果,这表明mask pooling无法充分利用mask的语义信息。

核心思路:Mask-Adapter的核心思路是通过学习一个适配器,将proposal mask转化为更具语义信息的激活图,从而更好地与CLIP的视觉特征对齐。这种方法旨在解决mask pooling的信息损失问题,并提高分类的准确性。

技术框架:Mask-Adapter作为一个即插即用的模块,可以集成到现有的基于mask pooling的开放词汇分割框架中。其主要流程包括:首先,利用mask生成器(如SAM)生成proposal mask;然后,Mask-Adapter从这些mask中提取语义激活图;最后,使用CLIP对这些激活图进行分类。此外,还引入了mask一致性损失来提高模型的鲁棒性。

关键创新:Mask-Adapter的关键创新在于使用语义激活图代替原始的proposal mask进行CLIP特征提取。这种方法能够提供更丰富的上下文信息,并更好地对齐mask和CLIP的视觉特征。此外,mask一致性损失进一步增强了模型对不同质量mask的鲁棒性。

关键设计:Mask-Adapter的具体实现细节包括:使用卷积神经网络从proposal mask中提取语义激活图;设计mask一致性损失,鼓励具有相似IoU的proposal mask产生相似的CLIP嵌入。具体参数设置和网络结构在论文中有详细描述,可以根据实际应用进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Mask-Adapter在多个zero-shot开放词汇分割基准测试中取得了显著的性能提升。例如,在某个数据集上,Mask-Adapter将基线方法的性能提高了X个百分点(具体数据请参考论文)。此外,Mask-Adapter成功扩展到SAM模型,并在多个开放词汇分割数据集上取得了令人印象深刻的结果,证明了其通用性和有效性。

🎯 应用场景

Mask-Adapter在开放词汇分割领域具有广泛的应用前景,例如智能安防、自动驾驶、图像编辑等。它可以帮助机器理解图像中任意文本描述的物体,从而实现更智能化的图像分析和处理。该研究的实际价值在于提升了开放词汇分割的准确性和鲁棒性,为相关应用提供了更可靠的技术支持。未来,Mask-Adapter可以进一步扩展到其他视觉任务,如目标检测、图像描述等。

📄 摘要(原文)

Recent open-vocabulary segmentation methods adopt mask generators to predict segmentation masks and leverage pre-trained vision-language models, e.g., CLIP, to classify these masks via mask pooling. Although these approaches show promising results, it is counterintuitive that accurate masks often fail to yield accurate classification results through pooling CLIP image embeddings within the mask regions. In this paper, we reveal the performance limitations of mask pooling and introduce Mask-Adapter, a simple yet effective method to address these challenges in open-vocabulary segmentation. Compared to directly using proposal masks, our proposed Mask-Adapter extracts semantic activation maps from proposal masks, providing richer contextual information and ensuring alignment between masks and CLIP. Additionally, we propose a mask consistency loss that encourages proposal masks with similar IoUs to obtain similar CLIP embeddings to enhance models' robustness to varying predicted masks. Mask-Adapter integrates seamlessly into open-vocabulary segmentation methods based on mask pooling in a plug-and-play manner, delivering more accurate classification results. Extensive experiments across several zero-shot benchmarks demonstrate significant performance gains for the proposed Mask-Adapter on several well-established methods. Notably, Mask-Adapter also extends effectively to SAM and achieves impressive results on several open-vocabulary segmentation datasets. Code and models are available at https://github.com/hustvl/MaskAdapter.