OpenWorldSAM: Extending SAM2 for Universal Image Segmentation with Language Prompts

作者: Shiting Xiao, Rishabh Kabra, Yuhang Li, Donghyun Lee, Joao Carreira, Priyadarshini Panda

分类: cs.CV

发布日期: 2025-07-07 (更新: 2025-11-12)

🔗 代码/项目: GITHUB

💡 一句话要点

提出OpenWorldSAM以解决开放词汇图像分割问题

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 开放词汇 图像分割 多模态嵌入 视觉-语言模型 实例意识 零-shot 学习 资源效率

📋 核心要点

现有方法在处理开放词汇和多样化类别时，往往无法有效地将文本语义转化为空间掩码，导致分割效果不佳。
OpenWorldSAM通过集成轻量级视觉-语言模型的多模态嵌入，支持多种语言提示，提升了分割任务的灵活性和效率。
实验结果显示，OpenWorldSAM在多个基准测试中实现了最先进的性能，尤其在未见类别的零-shot 分割能力上表现突出。

📝 摘要（中文）

基于开放式语言提示进行物体分割的能力仍然是一个关键挑战，要求模型将文本语义与精确的空间掩码相结合，同时处理多样化和未见过的类别。我们提出了OpenWorldSAM，一个扩展了基于提示的Segment Anything Model v2 (SAM2)的框架，通过集成从轻量级视觉-语言模型（VLM）提取的多模态嵌入，适用于开放词汇场景。我们的研究遵循四个关键原则：统一提示、效率、实例意识和泛化能力。实验表明，OpenWorldSAM在多个基准测试中实现了开放词汇语义、实例和全景分割的最先进性能。

🔬 方法详解

问题定义：本论文旨在解决基于开放式语言提示的图像分割问题。现有方法在处理未见类别时，往往无法有效地将文本语义与空间掩码结合，导致分割效果不理想。

核心思路：OpenWorldSAM的核心思路是通过集成多模态嵌入，支持多种类型的语言提示，从而提升模型的灵活性和适应性。通过冻结SAM2和VLM的预训练组件，仅训练少量参数，显著提高了资源效率。

技术框架：OpenWorldSAM的整体架构包括多个模块：首先是输入的语言提示，接着通过VLM提取多模态嵌入，然后利用SAM2进行图像分割，最后通过后处理模块生成最终的分割结果。

关键创新：OpenWorldSAM的主要创新在于引入了新的位置平衡嵌入和交叉注意力层，增强了模型的空间理解能力，使其能够有效分割多个实例，并在开放词汇场景中表现出色。

关键设计：在模型设计中，冻结了SAM2和VLM的预训练组件，仅训练4.5百万个参数，使用COCO-stuff数据集进行训练。此外，采用了新的损失函数和网络结构，以提升模型的分割精度和效率。

🖼️ 关键图片

📊 实验亮点

OpenWorldSAM在多个基准测试中实现了最先进的性能，特别是在开放词汇语义、实例和全景分割任务上，展现出强大的零-shot 能力。与现有方法相比，模型在未见类别的分割精度上有显著提升，具体性能数据尚未披露。

🎯 应用场景

OpenWorldSAM在图像分割领域具有广泛的应用潜力，尤其适用于需要处理多样化和未见类别的任务，如自动驾驶、医疗影像分析和智能监控等。其灵活的提示机制和高效的资源利用，使得该模型在实际应用中具备较高的价值和影响力。

📄 摘要（原文）

The ability to segment objects based on open-ended language prompts remains a critical challenge, requiring models to ground textual semantics into precise spatial masks while handling diverse and unseen categories. We present OpenWorldSAM, a framework that extends the prompt-driven Segment Anything Model v2 (SAM2) to open-vocabulary scenarios by integrating multi-modal embeddings extracted from a lightweight vision-language model (VLM). Our approach is guided by four key principles: i) Unified prompting: OpenWorldSAM supports a diverse range of prompts, including category-level and sentence-level language descriptions, providing a flexible interface for various segmentation tasks. ii) Efficiency: By freezing the pre-trained components of SAM2 and the VLM, we train only 4.5 million parameters on the COCO-stuff dataset, achieving remarkable resource efficiency. iii) Instance Awareness: We enhance the model's spatial understanding through novel positional tie-breaker embeddings and cross-attention layers, enabling effective segmentation of multiple instances. iv) Generalization: OpenWorldSAM exhibits strong zero-shot capabilities, generalizing well on unseen categories and an open vocabulary of concepts without additional training. Extensive experiments demonstrate that OpenWorldSAM achieves state-of-the-art performance in open-vocabulary semantic, instance, and panoptic segmentation across multiple benchmarks. Code is available at https://github.com/GinnyXiao/OpenWorldSAM.

OpenWorldSAM: Extending SAM2 for Universal Image Segmentation with Language Prompts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理