SpaCeFormer: Fast Proposal-Free Open-Vocabulary 3D Instance Segmentation

作者: Chris Choy, Junha Lee, Chunghyun Park, Minsu Cho, Jan Kautz

分类: cs.CV, cs.RO

发布日期: 2026-04-22

备注: Project page: https://nvlabs.github.io/SpaCeFormer/

💡 一句话要点

SpaCeFormer：快速无Proposal的开放词汇3D实例分割

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D实例分割 开放词汇 Transformer 无Proposal 空间曲线 点云处理 零样本学习

📋 核心要点

现有开放词汇3D实例分割方法要么速度慢，要么依赖于质量差的伪标签和外部提议，限制了其在实际场景中的应用。
SpaCeFormer通过空间曲线Transformer直接预测实例掩码，无需Proposal，并结合空间窗口注意力和Morton曲线序列化来提升特征的空间连贯性。
SpaCeFormer在多个数据集上取得了显著的性能提升，尤其是在零样本学习方面，并且速度比现有方法快几个数量级。

📝 摘要（中文）

开放词汇3D实例分割是机器人和AR/VR的核心能力，但现有方法面临瓶颈：多阶段2D+3D流程聚合基础模型输出耗时数百秒，而伪标签端到端方法依赖于碎片化的掩码和外部区域提议。我们提出了SpaCeFormer，一种无Proposal的空间曲线Transformer，每场景运行时间为0.14秒，比多阶段2D+3D流程快2-3个数量级。我们还构建了SpaCeFormer-3M，这是最大的开放词汇3D实例分割数据集（7.4K场景中604K实例的3.0M多视角一致标注），通过多视角掩码聚类和多视角VLM标注构建；其掩码召回率比之前的单视角流程高21倍（IoU>0.5时为54.3% vs 2.5%）。SpaCeFormer结合了空间窗口注意力与Morton曲线序列化以获得空间连贯特征，并使用RoPE增强的解码器直接从学习到的查询预测实例掩码，无需外部提议。在ScanNet200上，我们实现了11.1的零样本mAP，比之前最佳的无Proposal方法提高了2.8倍；在ScanNet++和Replica上，我们分别达到了22.9和24.1的mAP，超过了所有先前的方法，包括那些使用多视角2D输入的方法。

🔬 方法详解

问题定义：论文旨在解决开放词汇3D实例分割问题，即在没有预定义类别的情况下，对3D场景中的物体进行分割和识别。现有方法主要存在两个痛点：一是基于2D+3D的多阶段流程速度慢，难以满足实时性要求；二是端到端方法依赖于质量较差的伪标签和外部区域提议，导致分割精度不高。

核心思路：论文的核心思路是设计一种无Proposal的端到端网络，直接从3D点云中预测实例掩码。通过空间曲线Transformer，利用空间窗口注意力和Morton曲线序列化，提取具有空间连贯性的特征，从而提高分割精度和速度。

技术框架：SpaCeFormer的整体框架包括以下几个主要模块：1) 3D点云输入；2) 空间窗口注意力模块，用于提取局部空间特征；3) Morton曲线序列化，将3D空间信息编码为1D序列；4) Transformer编码器，用于学习全局上下文信息；5) RoPE增强的Transformer解码器，直接预测实例掩码。

关键创新：论文最重要的技术创新点在于提出了无Proposal的空间曲线Transformer。与现有方法相比，该方法无需依赖外部区域提议，避免了提议生成过程中的误差累积，从而提高了分割精度。此外，空间窗口注意力和Morton曲线序列化的结合，有效地提升了特征的空间连贯性。

关键设计：论文的关键设计包括：1) 空间窗口大小的设置，需要在局部特征提取和计算复杂度之间进行权衡；2) Morton曲线的编码方式，影响了空间信息的保留程度；3) RoPE增强的Transformer解码器，提高了解码器的定位能力；4) 损失函数的设计，需要平衡分割精度和实例完整性。

🖼️ 关键图片

📊 实验亮点

SpaCeFormer在ScanNet200上实现了11.1的零样本mAP，比之前最佳的无Proposal方法提高了2.8倍。在ScanNet++和Replica上，分别达到了22.9和24.1的mAP，超过了所有先前的方法，包括那些使用多视角2D输入的方法。此外，SpaCeFormer的运行速度比多阶段2D+3D流程快2-3个数量级，具有很强的实用性。

🎯 应用场景

该研究成果可广泛应用于机器人、AR/VR等领域。例如，机器人可以利用该技术进行场景理解和物体识别，从而实现自主导航和操作。在AR/VR中，该技术可以用于增强现实体验，例如将虚拟物体与真实场景进行无缝融合。此外，该技术还可以应用于自动驾驶、三维重建等领域。

📄 摘要（原文）

Open-vocabulary 3D instance segmentation is a core capability for robotics and AR/VR, but prior methods trade one bottleneck for another: multi-stage 2D+3D pipelines aggregate foundation-model outputs at hundreds of seconds per scene, while pseudo-labeled end-to-end approaches rely on fragmented masks and external region proposals. We present SpaCeFormer, a proposal-free space-curve transformer that runs at 0.14 seconds per scene, 2-3 orders of magnitude faster than multi-stage 2D+3D pipelines. We pair it with SpaCeFormer-3M, the largest open-vocabulary 3D instance segmentation dataset (3.0M multi-view-consistent captions over 604K instances from 7.4K scenes) built through multi-view mask clustering and multi-view VLM captioning; it reaches 21x higher mask recall than prior single-view pipelines (54.3% vs 2.5% at IoU > 0.5). SpaCeFormer combines spatial window attention with Morton-curve serialization for spatially coherent features, and uses a RoPE-enhanced decoder to predict instance masks directly from learned queries without external proposals. On ScanNet200 we achieve 11.1 zero-shot mAP, a 2.8x improvement over the prior best proposal-free method; on ScanNet++ and Replica, we reach 22.9 and 24.1 mAP, surpassing all prior methods including those using multi-view 2D inputs.

SpaCeFormer: Fast Proposal-Free Open-Vocabulary 3D Instance Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理