OpenWorldSAM: Extending SAM2 for Universal Image Segmentation with Language Prompts

📄 arXiv: 2507.05427v3 📥 PDF

作者: Shiting Xiao, Rishabh Kabra, Yuhang Li, Donghyun Lee, Joao Carreira, Priyadarshini Panda

分类: cs.CV

发布日期: 2025-07-07 (更新: 2025-11-12)

🔗 代码/项目: GITHUB


💡 一句话要点

提出OpenWorldSAM以解决开放词汇图像分割问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇 图像分割 多模态嵌入 视觉-语言模型 实例意识 零-shot 学习 资源效率

📋 核心要点

  1. 现有方法在处理开放词汇和多样化类别时,往往无法有效地将文本语义转化为空间掩码,导致分割效果不佳。
  2. OpenWorldSAM通过集成轻量级视觉-语言模型的多模态嵌入,支持多种语言提示,提升了分割任务的灵活性和效率。
  3. 实验结果显示,OpenWorldSAM在多个基准测试中实现了最先进的性能,尤其在未见类别的零-shot 分割能力上表现突出。

📝 摘要(中文)

基于开放式语言提示进行物体分割的能力仍然是一个关键挑战,要求模型将文本语义与精确的空间掩码相结合,同时处理多样化和未见过的类别。我们提出了OpenWorldSAM,一个扩展了基于提示的Segment Anything Model v2 (SAM2)的框架,通过集成从轻量级视觉-语言模型(VLM)提取的多模态嵌入,适用于开放词汇场景。我们的研究遵循四个关键原则:统一提示、效率、实例意识和泛化能力。实验表明,OpenWorldSAM在多个基准测试中实现了开放词汇语义、实例和全景分割的最先进性能。

🔬 方法详解

问题定义:本论文旨在解决基于开放式语言提示的图像分割问题。现有方法在处理未见类别时,往往无法有效地将文本语义与空间掩码结合,导致分割效果不理想。

核心思路:OpenWorldSAM的核心思路是通过集成多模态嵌入,支持多种类型的语言提示,从而提升模型的灵活性和适应性。通过冻结SAM2和VLM的预训练组件,仅训练少量参数,显著提高了资源效率。

技术框架:OpenWorldSAM的整体架构包括多个模块:首先是输入的语言提示,接着通过VLM提取多模态嵌入,然后利用SAM2进行图像分割,最后通过后处理模块生成最终的分割结果。

关键创新:OpenWorldSAM的主要创新在于引入了新的位置平衡嵌入和交叉注意力层,增强了模型的空间理解能力,使其能够有效分割多个实例,并在开放词汇场景中表现出色。

关键设计:在模型设计中,冻结了SAM2和VLM的预训练组件,仅训练4.5百万个参数,使用COCO-stuff数据集进行训练。此外,采用了新的损失函数和网络结构,以提升模型的分割精度和效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OpenWorldSAM在多个基准测试中实现了最先进的性能,特别是在开放词汇语义、实例和全景分割任务上,展现出强大的零-shot 能力。与现有方法相比,模型在未见类别的分割精度上有显著提升,具体性能数据尚未披露。

🎯 应用场景

OpenWorldSAM在图像分割领域具有广泛的应用潜力,尤其适用于需要处理多样化和未见类别的任务,如自动驾驶、医疗影像分析和智能监控等。其灵活的提示机制和高效的资源利用,使得该模型在实际应用中具备较高的价值和影响力。

📄 摘要(原文)

The ability to segment objects based on open-ended language prompts remains a critical challenge, requiring models to ground textual semantics into precise spatial masks while handling diverse and unseen categories. We present OpenWorldSAM, a framework that extends the prompt-driven Segment Anything Model v2 (SAM2) to open-vocabulary scenarios by integrating multi-modal embeddings extracted from a lightweight vision-language model (VLM). Our approach is guided by four key principles: i) Unified prompting: OpenWorldSAM supports a diverse range of prompts, including category-level and sentence-level language descriptions, providing a flexible interface for various segmentation tasks. ii) Efficiency: By freezing the pre-trained components of SAM2 and the VLM, we train only 4.5 million parameters on the COCO-stuff dataset, achieving remarkable resource efficiency. iii) Instance Awareness: We enhance the model's spatial understanding through novel positional tie-breaker embeddings and cross-attention layers, enabling effective segmentation of multiple instances. iv) Generalization: OpenWorldSAM exhibits strong zero-shot capabilities, generalizing well on unseen categories and an open vocabulary of concepts without additional training. Extensive experiments demonstrate that OpenWorldSAM achieves state-of-the-art performance in open-vocabulary semantic, instance, and panoptic segmentation across multiple benchmarks. Code is available at https://github.com/GinnyXiao/OpenWorldSAM.