SpaCeFormer: Fast Proposal-Free Open-Vocabulary 3D Instance Segmentation

📄 arXiv: 2604.20395v1 📥 PDF

作者: Chris Choy, Junha Lee, Chunghyun Park, Minsu Cho, Jan Kautz

分类: cs.CV, cs.RO

发布日期: 2026-04-22

备注: Project page: https://nvlabs.github.io/SpaCeFormer/


💡 一句话要点

SpaCeFormer:快速无Proposal的开放词汇3D实例分割

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D实例分割 开放词汇 Transformer 无Proposal 空间曲线 点云处理 零样本学习

📋 核心要点

  1. 现有开放词汇3D实例分割方法要么速度慢,要么依赖于质量差的伪标签和外部提议,限制了其在实际场景中的应用。
  2. SpaCeFormer通过空间曲线Transformer直接预测实例掩码,无需Proposal,并结合空间窗口注意力和Morton曲线序列化来提升特征的空间连贯性。
  3. SpaCeFormer在多个数据集上取得了显著的性能提升,尤其是在零样本学习方面,并且速度比现有方法快几个数量级。

📝 摘要(中文)

开放词汇3D实例分割是机器人和AR/VR的核心能力,但现有方法面临瓶颈:多阶段2D+3D流程聚合基础模型输出耗时数百秒,而伪标签端到端方法依赖于碎片化的掩码和外部区域提议。我们提出了SpaCeFormer,一种无Proposal的空间曲线Transformer,每场景运行时间为0.14秒,比多阶段2D+3D流程快2-3个数量级。我们还构建了SpaCeFormer-3M,这是最大的开放词汇3D实例分割数据集(7.4K场景中604K实例的3.0M多视角一致标注),通过多视角掩码聚类和多视角VLM标注构建;其掩码召回率比之前的单视角流程高21倍(IoU>0.5时为54.3% vs 2.5%)。SpaCeFormer结合了空间窗口注意力与Morton曲线序列化以获得空间连贯特征,并使用RoPE增强的解码器直接从学习到的查询预测实例掩码,无需外部提议。在ScanNet200上,我们实现了11.1的零样本mAP,比之前最佳的无Proposal方法提高了2.8倍;在ScanNet++和Replica上,我们分别达到了22.9和24.1的mAP,超过了所有先前的方法,包括那些使用多视角2D输入的方法。

🔬 方法详解

问题定义:论文旨在解决开放词汇3D实例分割问题,即在没有预定义类别的情况下,对3D场景中的物体进行分割和识别。现有方法主要存在两个痛点:一是基于2D+3D的多阶段流程速度慢,难以满足实时性要求;二是端到端方法依赖于质量较差的伪标签和外部区域提议,导致分割精度不高。

核心思路:论文的核心思路是设计一种无Proposal的端到端网络,直接从3D点云中预测实例掩码。通过空间曲线Transformer,利用空间窗口注意力和Morton曲线序列化,提取具有空间连贯性的特征,从而提高分割精度和速度。

技术框架:SpaCeFormer的整体框架包括以下几个主要模块:1) 3D点云输入;2) 空间窗口注意力模块,用于提取局部空间特征;3) Morton曲线序列化,将3D空间信息编码为1D序列;4) Transformer编码器,用于学习全局上下文信息;5) RoPE增强的Transformer解码器,直接预测实例掩码。

关键创新:论文最重要的技术创新点在于提出了无Proposal的空间曲线Transformer。与现有方法相比,该方法无需依赖外部区域提议,避免了提议生成过程中的误差累积,从而提高了分割精度。此外,空间窗口注意力和Morton曲线序列化的结合,有效地提升了特征的空间连贯性。

关键设计:论文的关键设计包括:1) 空间窗口大小的设置,需要在局部特征提取和计算复杂度之间进行权衡;2) Morton曲线的编码方式,影响了空间信息的保留程度;3) RoPE增强的Transformer解码器,提高了解码器的定位能力;4) 损失函数的设计,需要平衡分割精度和实例完整性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SpaCeFormer在ScanNet200上实现了11.1的零样本mAP,比之前最佳的无Proposal方法提高了2.8倍。在ScanNet++和Replica上,分别达到了22.9和24.1的mAP,超过了所有先前的方法,包括那些使用多视角2D输入的方法。此外,SpaCeFormer的运行速度比多阶段2D+3D流程快2-3个数量级,具有很强的实用性。

🎯 应用场景

该研究成果可广泛应用于机器人、AR/VR等领域。例如,机器人可以利用该技术进行场景理解和物体识别,从而实现自主导航和操作。在AR/VR中,该技术可以用于增强现实体验,例如将虚拟物体与真实场景进行无缝融合。此外,该技术还可以应用于自动驾驶、三维重建等领域。

📄 摘要(原文)

Open-vocabulary 3D instance segmentation is a core capability for robotics and AR/VR, but prior methods trade one bottleneck for another: multi-stage 2D+3D pipelines aggregate foundation-model outputs at hundreds of seconds per scene, while pseudo-labeled end-to-end approaches rely on fragmented masks and external region proposals. We present SpaCeFormer, a proposal-free space-curve transformer that runs at 0.14 seconds per scene, 2-3 orders of magnitude faster than multi-stage 2D+3D pipelines. We pair it with SpaCeFormer-3M, the largest open-vocabulary 3D instance segmentation dataset (3.0M multi-view-consistent captions over 604K instances from 7.4K scenes) built through multi-view mask clustering and multi-view VLM captioning; it reaches 21x higher mask recall than prior single-view pipelines (54.3% vs 2.5% at IoU > 0.5). SpaCeFormer combines spatial window attention with Morton-curve serialization for spatially coherent features, and uses a RoPE-enhanced decoder to predict instance masks directly from learned queries without external proposals. On ScanNet200 we achieve 11.1 zero-shot mAP, a 2.8x improvement over the prior best proposal-free method; on ScanNet++ and Replica, we reach 22.9 and 24.1 mAP, surpassing all prior methods including those using multi-view 2D inputs.