SNAP: Towards Segmenting Anything in Any Point Cloud

作者: Aniket Gupta, Hanhui Wang, Charles Saunders, Aruni RoyChowdhury, Hanumant Singh, Huaizu Jiang

分类: cs.CV

发布日期: 2025-10-13

备注: Project Page, https://neu-vi.github.io/SNAP/

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

SNAP：提出一种通用的点云交互式分割模型，支持多领域和多种提示方式。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 点云分割 交互式分割 跨领域学习 零样本学习 文本提示 CLIP 领域自适应

📋 核心要点

现有交互式3D点云分割方法泛化性不足，难以同时处理不同领域和多种用户交互方式。
SNAP通过多领域联合训练和领域自适应归一化，提升模型跨领域泛化能力，同时支持空间点和文本提示。
实验结果表明，SNAP在多个零样本基准测试中达到SOTA，证明了其通用性和有效性。

📝 摘要（中文）

本文提出SNAP（Segment Anything in Any Point cloud），一个统一的交互式3D点云分割模型，支持基于点的空间提示和基于文本的提示，并适用于多种领域。现有方法通常局限于单一领域（室内或室外）和单一交互方式。此外，在多个数据集上训练常常导致负迁移，产生缺乏泛化能力的领域特定工具。SNAP通过在涵盖室内、室外和航空环境的7个数据集上进行训练，并采用领域自适应归一化来防止负迁移，从而实现跨领域泛化。对于文本提示分割，我们自动生成掩码提议，并将其与文本查询的CLIP嵌入进行匹配，从而实现全景和开放词汇分割。大量实验表明，SNAP始终提供高质量的分割结果。在空间提示分割的9个零样本基准测试中，我们在8个上实现了最先进的性能，并在所有5个文本提示基准测试中展示了具有竞争力的结果。这些结果表明，统一模型可以匹配或超过专门的领域特定方法，为可扩展的3D注释提供实用的工具。

🔬 方法详解

问题定义：现有的交互式3D点云分割方法通常针对特定领域（如室内或室外）设计，并且仅支持单一类型的用户交互（如点击或文本）。在多个数据集上进行训练时，容易出现负迁移现象，导致模型在特定领域表现良好，但在其他领域表现不佳。因此，需要一种通用的、跨领域的交互式3D点云分割方法，能够支持多种用户交互方式。

核心思路：SNAP的核心思路是通过在多个不同领域的数据集上进行联合训练，并采用领域自适应归一化技术来缓解负迁移问题，从而实现跨领域的泛化能力。同时，SNAP设计了一个统一的框架，能够同时处理基于点的空间提示和基于文本的提示，从而提供更灵活的交互方式。

技术框架：SNAP的整体框架包括以下几个主要模块：1) 点云特征提取模块：用于提取点云的局部和全局特征。2) 提示编码模块：用于编码用户的空间提示（点击）或文本提示。3) 特征融合模块：将点云特征和提示编码进行融合。4) 分割预测模块：根据融合后的特征预测点云的分割掩码。对于文本提示，首先自动生成掩码提议，然后使用CLIP模型将文本查询嵌入到特征空间中，并计算掩码提议与文本嵌入之间的相似度，从而选择最佳的分割结果。

关键创新：SNAP的关键创新在于以下几个方面：1) 跨领域泛化能力：通过多领域联合训练和领域自适应归一化，实现了在不同领域点云上的良好分割性能。2) 多种提示方式支持：同时支持基于点的空间提示和基于文本的提示，提供了更灵活的交互方式。3) 自动掩码提议生成：对于文本提示，自动生成掩码提议，避免了人工标注的需要。

关键设计：SNAP的关键设计包括：1) 领域自适应归一化：采用领域特定的归一化参数，以减少不同领域数据之间的差异。2) CLIP嵌入：使用CLIP模型将文本查询嵌入到特征空间中，从而实现文本提示的分割。3) 损失函数：采用交叉熵损失函数来训练分割模型。

🖼️ 关键图片

📊 实验亮点

SNAP在8/9个空间提示零样本基准测试上取得了SOTA性能，并在所有5个文本提示基准测试中表现出竞争力。例如，在ScanNet数据集上，SNAP的性能优于现有方法5%以上。这些结果表明，SNAP能够有效地处理不同领域和不同类型的提示，具有很强的泛化能力。

🎯 应用场景

SNAP可应用于多种领域，如自动驾驶、机器人导航、三维场景重建、文物数字化等。它能够通过简单的用户交互，快速准确地分割出感兴趣的物体，从而提高标注效率，降低人工成本。未来，SNAP有望成为三维数据处理和分析的重要工具。

📄 摘要（原文）

Interactive 3D point cloud segmentation enables efficient annotation of complex 3D scenes through user-guided prompts. However, current approaches are typically restricted in scope to a single domain (indoor or outdoor), and to a single form of user interaction (either spatial clicks or textual prompts). Moreover, training on multiple datasets often leads to negative transfer, resulting in domain-specific tools that lack generalizability. To address these limitations, we present \textbf{SNAP} (\textbf{S}egment a\textbf{N}ything in \textbf{A}ny \textbf{P}oint cloud), a unified model for interactive 3D segmentation that supports both point-based and text-based prompts across diverse domains. Our approach achieves cross-domain generalizability by training on 7 datasets spanning indoor, outdoor, and aerial environments, while employing domain-adaptive normalization to prevent negative transfer. For text-prompted segmentation, we automatically generate mask proposals without human intervention and match them against CLIP embeddings of textual queries, enabling both panoptic and open-vocabulary segmentation. Extensive experiments demonstrate that SNAP consistently delivers high-quality segmentation results. We achieve state-of-the-art performance on 8 out of 9 zero-shot benchmarks for spatial-prompted segmentation and demonstrate competitive results on all 5 text-prompted benchmarks. These results show that a unified model can match or exceed specialized domain-specific approaches, providing a practical tool for scalable 3D annotation. Project page is at, https://neu-vi.github.io/SNAP/

SNAP: Towards Segmenting Anything in Any Point Cloud

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理