SAM3-I: Segment Anything with Instructions

作者: Jingjing Li, Yue Feng, Yuchen Guo, Jincai Huang, Yongri Piao, Qi Bi, Miao Zhang, Xiaoqi Zhao, Qiang Chen, Shihao Zou, Wei Ji, Huchuan Lu, Li Cheng

分类: cs.CV

发布日期: 2025-12-04 (更新: 2025-12-16)

备注: Preliminary results; work in progress

💡 一句话要点

SAM3-I：通过指令感知的级联自适应机制增强SAM3，实现指令驱动的图像分割

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像分割 自然语言指令 视觉-语言模型 级联自适应 SAM3 指令跟随 开放词汇分割

📋 核心要点

现有SAM3依赖外部多模态代理将复杂指令转化为名词短语，表达能力受限，无法精确表示特定实例。
SAM3-I提出指令感知的级联自适应机制，将指令语义与SAM3的视觉-语言表示对齐，实现直接指令跟随分割。
实验表明SAM3-I性能优异，能有效扩展SAM3以遵循自然语言指令，同时保持其强大的概念基础。

📝 摘要（中文）

Segment Anything Model 3 (SAM3) 通过可提示的概念分割推进了开放词汇分割，允许用户分割与给定概念对应的所有实例，这些概念通常用简短的名词短语 (NP) 提示指定。虽然这标志着 SAM 系列首次集成语言级别的概念，但实际应用通常需要更丰富的表达，包括属性、空间关系、功能、动作、状态，甚至是对实例的隐式推理。目前，SAM3 依赖于外部多模态代理将复杂指令转换为 NP，然后进行迭代掩码过滤。然而，这些 NP 级别的概念仍然过于粗糙，通常无法精确地表示特定实例。本文提出了 SAM3-I，这是一个增强的框架，它统一了 SAM 系列中的概念级理解和指令级推理。SAM3-I 引入了一种指令感知的级联自适应机制，该机制逐步将表达性指令语义与 SAM3 现有的视觉-语言表示对齐，从而实现直接的指令跟随分割，而不会牺牲其原始的概念驱动能力。此外，我们设计了一个结构化的指令分类法，涵盖概念、简单和复杂级别，并开发了一个可扩展的数据引擎来构建具有多样化指令-掩码对的数据集。实验表明，SAM3-I 提供了有吸引力的性能，表明 SAM3 可以有效地扩展以遵循自然语言指令，同时保持其强大的概念基础。我们开源了 SAM3-I，并提供了实用的微调工作流程，使研究人员能够将其适应于特定领域的应用。

🔬 方法详解

问题定义：SAM3虽然在开放词汇分割上取得了进展，但其依赖于将复杂指令转换为简单的名词短语，这限制了其处理复杂指令的能力，无法精确分割用户意图的特定实例。现有方法需要借助外部多模态代理进行转换和迭代过滤，效率较低且精度不高。

核心思路：SAM3-I的核心思路是通过指令感知的级联自适应机制，直接将复杂的自然语言指令融入到SAM3的视觉-语言表示中，从而实现对指令的直接理解和执行。这种方法避免了中间转换步骤，提高了分割的精度和效率。

技术框架：SAM3-I的整体框架包含以下几个主要模块：1) 指令编码器：用于提取自然语言指令的语义特征。2) 视觉-语言对齐模块：通过级联自适应机制，将指令语义与SAM3的视觉特征进行对齐。3) 分割模块：利用对齐后的视觉-语言特征，生成与指令对应的分割掩码。4) 数据引擎：用于构建包含多样化指令-掩码对的数据集，支持模型的训练和评估。

关键创新：SAM3-I的关键创新在于指令感知的级联自适应机制。该机制通过多层级的自适应，逐步将指令语义融入到SAM3的视觉表示中，从而实现对复杂指令的精确理解和执行。这种方法避免了对外部多模态代理的依赖，提高了分割的精度和效率。

关键设计：SAM3-I的关键设计包括：1) 结构化的指令分类法，涵盖概念、简单和复杂级别，用于指导数据收集和模型训练。2) 可扩展的数据引擎，用于生成包含多样化指令-掩码对的数据集。3) 级联自适应机制的具体实现，包括自注意力机制、交叉注意力机制等，用于实现视觉-语言特征的对齐。

🖼️ 关键图片

📊 实验亮点

论文通过实验验证了SAM3-I的有效性，表明其在遵循自然语言指令进行图像分割方面具有显著优势。具体性能数据和对比基线未在摘要中明确给出，但强调了SAM3-I在保持SAM3原有概念驱动能力的同时，能够更好地理解和执行复杂指令。

🎯 应用场景

SAM3-I可应用于各种需要精确图像分割的场景，例如：机器人导航、医学图像分析、自动驾驶、图像编辑等。通过自然语言指令，用户可以方便地指定需要分割的目标，从而提高工作效率和精度。未来，该技术有望在智能家居、工业自动化等领域发挥重要作用。

📄 摘要（原文）

Segment Anything Model 3 (SAM3) has advanced open-vocabulary segmentation through promptable concept segmentation, allowing users to segment all instances corresponding to a given concept, typically specified with short noun-phrase (NP) prompts. While this marks the first integration of language-level concepts within the SAM family, real-world usage typically requires far richer expressions that include attributes, spatial relations, functionalities, actions, states, and even implicit reasoning over instances. Currently, SAM3 relies on external multi-modal agents to convert complex instructions into NPs and then conduct iterative mask filtering. However, these NP-level concepts remain overly coarse, often failing to precisely represent a specific instance. In this work, we present SAM3-I, an enhanced framework that unifies concept-level understanding and instruction-level reasoning within the SAM family. SAM3-I introduces an instruction-aware cascaded adaptation mechanism that progressively aligns expressive instruction semantics with SAM3's existing vision-language representations, enabling direct instruction-following segmentation without sacrificing its original concept-driven capabilities. Furthermore, we design a structured instruction taxonomy spanning concept, simple, and complex levels, and develop a scalable data engine to construct a dataset with diverse instruction-mask pairs. Experiments show that SAM3-I delivers appealing performance, demonstrating that SAM3 can be effectively extended to follow natural-language instructions while preserving its strong concept grounding. We open-source SAM3-I and provide practical fine-tuning workflows, enabling researchers to adapt it to domain-specific applications. The source code is available here.

SAM3-I: Segment Anything with Instructions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理