MROVSeg: Breaking the Resolution Curse of Vision-Language Models in Open-Vocabulary Image Segmentation
作者: Yuanbing Zhu, Bingke Zhu, Yingying Chen, Yunfang Niu, Ming Tang, Jinqiao Wang
分类: cs.CV, cs.AI
发布日期: 2024-08-27 (更新: 2024-11-27)
备注: Technical report
💡 一句话要点
MROVSeg:突破开放词汇图像分割中视觉-语言模型的分辨率瓶颈
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 开放词汇图像分割 视觉-语言模型 多分辨率学习 CLIP 滑动窗口
📋 核心要点
- 现有开放词汇图像分割方法受限于预训练VLM的分辨率,直接在高分辨率图像上应用效果不佳,或需引入额外计算开销大的骨干网络。
- MROVSeg通过多分辨率训练框架,利用滑动窗口将高分辨率图像切分为小patch,并设计多分辨率适配器来恢复空间几何信息。
- 实验表明,MROVSeg在开放词汇图像分割基准上取得了显著的性能提升,为该领域建立了新的标准。
📝 摘要(中文)
预训练的视觉-语言模型(VLMs),例如CLIP,越来越多地被用于弥合开放词汇和封闭词汇识别在开放词汇图像分割中的差距。由于VLMs通常使用低分辨率图像(例如$224 imes224$)进行预训练,因此大多数先前的方法仅在降采样图像上运行。我们质疑这种设计,因为低分辨率特征通常无法保留精细的细节。一个典型的解决方案是采用额外的图像骨干网络来处理高分辨率输入,但这也会带来显著的计算开销。因此,我们提出了MROVSeg,这是一个用于开放词汇图像分割的多分辨率训练框架,它使用单个预训练的CLIP骨干网络,并使用滑动窗口将高分辨率输入切片成均匀的patch,每个patch都与训练良好的图像编码器的输入大小相匹配。它的关键组件包括一个多分辨率适配器(Multi-Res Adapter),它通过与多分辨率特征交互来恢复空间几何结构并掌握patch之间的局部-全局对应关系。为了实现精确的分割,我们引入了多粒度掩码注意力机制(Multi-grained Masked Attention scheme),以将来自多分辨率CLIP特征的多粒度语义聚合到对象查询中。通过全面的实验,我们证明了MROVSeg在已建立的开放词汇图像分割基准上的优越性,为开放词汇图像分割建立了新的标准。
🔬 方法详解
问题定义:开放词汇图像分割旨在分割图像中任意文本描述的对象,而无需预先定义类别。现有的方法通常依赖于预训练的视觉-语言模型(VLMs),如CLIP。然而,这些VLMs通常在低分辨率图像上进行训练,直接应用于高分辨率图像会导致性能下降。为了处理高分辨率图像,一些方法采用额外的图像骨干网络,但这会显著增加计算成本。因此,如何在不引入过多计算开销的情况下,有效利用预训练VLM进行高分辨率开放词汇图像分割是一个关键问题。
核心思路:MROVSeg的核心思路是利用滑动窗口将高分辨率图像分割成多个小patch,每个patch的大小与预训练CLIP模型的输入大小相匹配。这样,就可以直接利用预训练CLIP模型提取每个patch的特征。为了恢复patch之间的空间关系,并融合不同分辨率的特征,MROVSeg引入了一个多分辨率适配器(Multi-Res Adapter)。
技术框架:MROVSeg的整体框架包括以下几个主要步骤:1) 使用滑动窗口将高分辨率图像分割成多个patch;2) 使用预训练的CLIP模型提取每个patch的特征,得到多分辨率的特征图;3) 使用多分辨率适配器(Multi-Res Adapter)融合多分辨率特征,恢复空间几何信息;4) 使用多粒度掩码注意力机制(Multi-grained Masked Attention scheme)将多分辨率CLIP特征的多粒度语义聚合到对象查询中;5) 使用分割头预测每个像素的类别。
关键创新:MROVSeg的关键创新在于以下两点:1) 提出了多分辨率适配器(Multi-Res Adapter),用于融合多分辨率特征,恢复空间几何信息;2) 提出了多粒度掩码注意力机制(Multi-grained Masked Attention scheme),用于将多分辨率CLIP特征的多粒度语义聚合到对象查询中。与现有方法相比,MROVSeg无需额外的图像骨干网络,即可有效处理高分辨率图像,并取得了更好的分割性能。
关键设计:多分辨率适配器(Multi-Res Adapter)的设计包括多个卷积层和注意力机制,用于融合不同分辨率的特征图。多粒度掩码注意力机制(Multi-grained Masked Attention scheme)使用不同大小的卷积核来提取不同粒度的语义信息,并通过注意力机制将这些信息聚合到对象查询中。损失函数包括分割损失和对比损失,用于优化分割性能和提高特征的区分性。
🖼️ 关键图片
📊 实验亮点
MROVSeg在多个开放词汇图像分割基准上取得了显著的性能提升。例如,在COCOStuff数据集上,MROVSeg的mIoU指标超过了现有最佳方法,取得了新的state-of-the-art结果。实验结果表明,MROVSeg能够有效处理高分辨率图像,并取得了更好的分割精度。
🎯 应用场景
MROVSeg在多个领域具有广泛的应用前景,例如自动驾驶、医学图像分析、遥感图像分析等。它可以用于识别和分割图像中任意文本描述的对象,从而实现更智能化的图像理解和分析。该研究的突破有助于推动计算机视觉技术的发展,并为相关应用带来实际价值。
📄 摘要(原文)
Pretrained vision-language models (VLMs), \eg CLIP, are increasingly used to bridge the gap between open- and close-vocabulary recognition in open-vocabulary image segmentation. As VLMs are generally pretrained with low-resolution images (e.g. $224\times224$), most previous methods operate only on downscaled images. We question this design as low resolution features often fail to preserve fine details. A typical solution is to employ additional image backbones for high-resolution inputs, but it also introduce significant computation overhead. Therefore, we propose MROVSeg, a multi-resolution training framework for open-vocabulary image segmentation with a single pretrained CLIP backbone, that uses sliding windows to slice the high-resolution input into uniform patches, each matching the input size of the well-trained image encoder. Its key components include a Multi-Res Adapter, which restores the spatial geometry and grasps local-global correspondences across patches by interacting with multi-resolution features. To achieve accurate segmentation, we introduce Multi-grained Masked Attention scheme to aggregate multi-grained semantics from multi-resolution CLIP features to object queries. Through comprehensive experiments, we demonstrate the superiority of MROVSeg on well-established open-vocabulary image segmentation benchmarks, establishing new standards for open-vocabulary image segmentation.