Beyond-Labels: Advancing Open-Vocabulary Segmentation With Vision-Language Models

📄 arXiv: 2501.16769v5 📥 PDF

作者: Muhammad Atta ur Rahman, Dooseop Choi, Seung-Ik Lee, KyoungWook Min

分类: cs.CV

发布日期: 2025-01-28 (更新: 2025-07-02)

备注: Accepted at the 17th IEEE International Conference on Advanced Computational Intelligence (ICACI 2025)


💡 一句话要点

提出Beyond-Labels,利用视觉-语言模型提升开放词汇语义分割性能

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放词汇语义分割 视觉-语言模型 Transformer 傅里叶嵌入 自监督学习

📋 核心要点

  1. 现有开放词汇语义分割方法难以有效利用预训练模型中的知识,需要大量数据进行重新训练。
  2. Beyond-Labels通过轻量级Transformer融合模块,将冻结的视觉和语言表示进行有效融合,提升数据利用率。
  3. 该方法使用傅里叶嵌入捕获位置信息,增强模型的泛化能力,并在PASCAL-5i数据集上取得了优异表现。

📝 摘要(中文)

本文提出了一种名为“Beyond-Labels”的方法,旨在提升开放词汇语义分割的性能。开放词汇语义分割的任务是使用任意文本标签(包括训练期间未见过的标签)对图像中的对象进行分类和分割。该研究探索了如何利用预训练的foundation模型,通过简单而有效的方法来适应开放词汇语义分割任务。Beyond-Labels是一个轻量级的基于Transformer的融合模块,它使用少量的图像分割数据将冻结的视觉表示与语言概念融合。这种策略允许模型利用预训练模型的广泛知识,而无需大量的重新训练,从而使该方法具有数据效率和可扩展性。此外,该方法使用傅里叶嵌入来捕获图像中的位置信息,从而提高泛化能力并实现平滑和一致的空间编码。在标准基准PASCAL-5i上,该方法在冻结视觉和语言表示的情况下表现更好。

🔬 方法详解

问题定义:开放词汇语义分割旨在利用任意文本描述分割图像中的物体,难点在于如何有效利用大规模预训练的视觉-语言模型,并克服训练数据不足的问题。现有方法通常需要对预训练模型进行大量微调,计算成本高昂,且容易过拟合。

核心思路:本文的核心思路是冻结预训练的视觉和语言模型,仅训练一个轻量级的融合模块,从而避免对大型模型进行微调。通过将视觉和语言特征进行有效融合,使模型能够利用预训练模型中蕴含的丰富知识,从而提升分割性能。

技术框架:Beyond-Labels的整体框架包含三个主要模块:冻结的视觉编码器、冻结的语言编码器和一个可训练的融合模块。视觉编码器和语言编码器分别提取图像和文本的特征表示。融合模块则将这两种特征进行融合,并输出像素级别的分割预测。此外,模型还使用了傅里叶嵌入来编码图像的位置信息。

关键创新:该方法最重要的创新点在于提出了一个轻量级的Transformer融合模块,能够在冻结预训练模型参数的情况下,有效地融合视觉和语言特征。这种方法避免了对大型模型进行微调,大大降低了计算成本,并提高了模型的泛化能力。

关键设计:融合模块采用Transformer结构,输入为视觉特征、语言特征和傅里叶位置编码。损失函数采用标准的交叉熵损失函数,用于衡量分割预测与真实标签之间的差异。傅里叶嵌入的频率参数需要根据图像尺寸进行调整,以保证位置编码的有效性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

该方法在PASCAL-5i数据集上取得了显著的性能提升,即使在冻结视觉和语言表示的情况下,仍然优于其他需要大量微调的方法。消融实验表明,傅里叶嵌入对于提升模型性能至关重要。实验结果验证了该方法在开放词汇语义分割任务中的有效性和优越性。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、图像编辑等领域。例如,在自动驾驶中,可以利用开放词汇语义分割技术识别道路上的各种物体,如行人、车辆、交通标志等,从而提高驾驶安全性。在机器人导航中,可以帮助机器人理解周围环境,并进行自主导航。在图像编辑中,可以实现基于文本描述的图像分割和编辑。

📄 摘要(原文)

Open-vocabulary semantic segmentation attempts to classify and outline objects in an image using arbitrary text labels, including those unseen during training. Self-supervised learning resolves numerous visual and linguistic processing problems when effectively trained. This study investigates simple yet efficient methods for adapting previously learned foundation models for open-vocabulary semantic segmentation tasks. Our research proposes "Beyond-Labels", a lightweight transformer-based fusion module that uses a small amount of image segmentation data to fuse frozen visual representations with language concepts. This strategy allows the model to leverage the extensive knowledge of pre-trained models without requiring significant retraining, making the approach data-efficient and scalable. Furthermore, we capture positional information in images using Fourier embeddings, improving generalization and enabling smooth and consistent spatial encoding. We perform thorough ablation studies to examine the main components of our proposed method. On the standard benchmark PASCAL-5i, the method performs better despite being trained on frozen vision and language representations. Index Terms: Beyond-Labels, open-vocabulary semantic segmentation, Fourier embeddings, PASCAL-5i