SNAP: Towards Segmenting Anything in Any Point Cloud
作者: Aniket Gupta, Hanhui Wang, Charles Saunders, Aruni RoyChowdhury, Hanumant Singh, Huaizu Jiang
分类: cs.CV
发布日期: 2025-10-13
备注: Project Page, https://neu-vi.github.io/SNAP/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
SNAP:提出一种通用的点云交互式分割模型,支持多领域和多种提示方式。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 点云分割 交互式分割 跨领域学习 零样本学习 文本提示 CLIP 领域自适应
📋 核心要点
- 现有交互式3D点云分割方法泛化性不足,难以同时处理不同领域和多种用户交互方式。
- SNAP通过多领域联合训练和领域自适应归一化,提升模型跨领域泛化能力,同时支持空间点和文本提示。
- 实验结果表明,SNAP在多个零样本基准测试中达到SOTA,证明了其通用性和有效性。
📝 摘要(中文)
本文提出SNAP(Segment Anything in Any Point cloud),一个统一的交互式3D点云分割模型,支持基于点的空间提示和基于文本的提示,并适用于多种领域。现有方法通常局限于单一领域(室内或室外)和单一交互方式。此外,在多个数据集上训练常常导致负迁移,产生缺乏泛化能力的领域特定工具。SNAP通过在涵盖室内、室外和航空环境的7个数据集上进行训练,并采用领域自适应归一化来防止负迁移,从而实现跨领域泛化。对于文本提示分割,我们自动生成掩码提议,并将其与文本查询的CLIP嵌入进行匹配,从而实现全景和开放词汇分割。大量实验表明,SNAP始终提供高质量的分割结果。在空间提示分割的9个零样本基准测试中,我们在8个上实现了最先进的性能,并在所有5个文本提示基准测试中展示了具有竞争力的结果。这些结果表明,统一模型可以匹配或超过专门的领域特定方法,为可扩展的3D注释提供实用的工具。
🔬 方法详解
问题定义:现有的交互式3D点云分割方法通常针对特定领域(如室内或室外)设计,并且仅支持单一类型的用户交互(如点击或文本)。在多个数据集上进行训练时,容易出现负迁移现象,导致模型在特定领域表现良好,但在其他领域表现不佳。因此,需要一种通用的、跨领域的交互式3D点云分割方法,能够支持多种用户交互方式。
核心思路:SNAP的核心思路是通过在多个不同领域的数据集上进行联合训练,并采用领域自适应归一化技术来缓解负迁移问题,从而实现跨领域的泛化能力。同时,SNAP设计了一个统一的框架,能够同时处理基于点的空间提示和基于文本的提示,从而提供更灵活的交互方式。
技术框架:SNAP的整体框架包括以下几个主要模块:1) 点云特征提取模块:用于提取点云的局部和全局特征。2) 提示编码模块:用于编码用户的空间提示(点击)或文本提示。3) 特征融合模块:将点云特征和提示编码进行融合。4) 分割预测模块:根据融合后的特征预测点云的分割掩码。对于文本提示,首先自动生成掩码提议,然后使用CLIP模型将文本查询嵌入到特征空间中,并计算掩码提议与文本嵌入之间的相似度,从而选择最佳的分割结果。
关键创新:SNAP的关键创新在于以下几个方面:1) 跨领域泛化能力:通过多领域联合训练和领域自适应归一化,实现了在不同领域点云上的良好分割性能。2) 多种提示方式支持:同时支持基于点的空间提示和基于文本的提示,提供了更灵活的交互方式。3) 自动掩码提议生成:对于文本提示,自动生成掩码提议,避免了人工标注的需要。
关键设计:SNAP的关键设计包括:1) 领域自适应归一化:采用领域特定的归一化参数,以减少不同领域数据之间的差异。2) CLIP嵌入:使用CLIP模型将文本查询嵌入到特征空间中,从而实现文本提示的分割。3) 损失函数:采用交叉熵损失函数来训练分割模型。
🖼️ 关键图片
📊 实验亮点
SNAP在8/9个空间提示零样本基准测试上取得了SOTA性能,并在所有5个文本提示基准测试中表现出竞争力。例如,在ScanNet数据集上,SNAP的性能优于现有方法5%以上。这些结果表明,SNAP能够有效地处理不同领域和不同类型的提示,具有很强的泛化能力。
🎯 应用场景
SNAP可应用于多种领域,如自动驾驶、机器人导航、三维场景重建、文物数字化等。它能够通过简单的用户交互,快速准确地分割出感兴趣的物体,从而提高标注效率,降低人工成本。未来,SNAP有望成为三维数据处理和分析的重要工具。
📄 摘要(原文)
Interactive 3D point cloud segmentation enables efficient annotation of complex 3D scenes through user-guided prompts. However, current approaches are typically restricted in scope to a single domain (indoor or outdoor), and to a single form of user interaction (either spatial clicks or textual prompts). Moreover, training on multiple datasets often leads to negative transfer, resulting in domain-specific tools that lack generalizability. To address these limitations, we present \textbf{SNAP} (\textbf{S}egment a\textbf{N}ything in \textbf{A}ny \textbf{P}oint cloud), a unified model for interactive 3D segmentation that supports both point-based and text-based prompts across diverse domains. Our approach achieves cross-domain generalizability by training on 7 datasets spanning indoor, outdoor, and aerial environments, while employing domain-adaptive normalization to prevent negative transfer. For text-prompted segmentation, we automatically generate mask proposals without human intervention and match them against CLIP embeddings of textual queries, enabling both panoptic and open-vocabulary segmentation. Extensive experiments demonstrate that SNAP consistently delivers high-quality segmentation results. We achieve state-of-the-art performance on 8 out of 9 zero-shot benchmarks for spatial-prompted segmentation and demonstrate competitive results on all 5 text-prompted benchmarks. These results show that a unified model can match or exceed specialized domain-specific approaches, providing a practical tool for scalable 3D annotation. Project page is at, https://neu-vi.github.io/SNAP/