OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding

作者: Yanmin Wu, Jiarui Meng, Haijie Li, Chenming Wu, Yahao Shi, Xinhua Cheng, Chen Zhao, Haocheng Feng, Errui Ding, Jingdong Wang, Jian Zhang

分类: cs.CV, cs.RO

发布日期: 2024-06-04 (更新: 2024-12-06)

备注: NeurIPS2024

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

OpenGaussian：提出基于3D高斯点云的开放词汇三维理解方法

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 开放词汇理解 3D点云 语义分割 2D-3D关联 实例分割 SAM CLIP

📋 核心要点

现有基于3DGS的开放词汇方法主要关注2D像素级别解析，在3D点云理解任务中，由于特征表达能力不足和2D-3D关联不准确，性能受限。
OpenGaussian通过训练具有3D一致性的实例特征，并结合两阶段码本进行特征离散化，从而实现鲁棒的3D点级别开放词汇理解。
实验结果表明，OpenGaussian在开放词汇3D对象选择、3D点云理解和基于点击的3D对象选择等任务中表现出色，验证了其有效性。

📝 摘要（中文）

本文介绍了一种名为OpenGaussian的方法，该方法基于3D高斯溅射（3DGS），能够实现3D点级别的开放词汇理解。我们主要的动机来自于观察到现有的基于3DGS的开放词汇方法主要集中在2D像素级别的解析。由于特征表达能力弱和2D-3D特征关联不准确，这些方法在3D点级别任务中表现不佳。为了确保鲁棒的特征表示和3D点级别的理解，我们首先采用没有跨帧关联的SAM掩码来训练具有3D一致性的实例特征。这些特征表现出对象内部的一致性和对象之间的区分性。然后，我们提出了一个两阶段码本，以从粗到精的级别离散化这些特征。在粗略级别，我们考虑3D点的位置信息来实现基于位置的聚类，然后在精细级别对其进行细化。最后，我们引入了一种实例级别的3D-2D特征关联方法，该方法将3D点链接到2D掩码，然后将2D掩码与2D CLIP特征相关联。大量的实验，包括基于开放词汇的3D对象选择、3D点云理解、基于点击的3D对象选择和消融研究，证明了我们提出的方法的有效性。源代码可在我们的项目页面上找到：https://3d-aigc.github.io/OpenGaussian

🔬 方法详解

问题定义：现有基于3D高斯溅射(3DGS)的开放词汇理解方法主要集中于2D像素级别，难以直接应用于3D点云的理解任务。这些方法在3D点级别任务中表现不佳，主要原因是特征表达能力较弱，以及2D图像特征与3D点云特征之间的关联不够准确。因此，如何提升3DGS框架下的3D点云特征表达能力，并建立有效的2D-3D特征关联，是本文要解决的核心问题。

核心思路：OpenGaussian的核心思路是首先学习具有3D一致性的实例特征，然后通过两阶段码本对这些特征进行离散化，最后建立实例级别的3D-2D特征关联。通过这种方式，可以增强3D点云的特征表达能力，并准确地将3D点云与2D图像信息联系起来，从而实现更有效的3D点云开放词汇理解。

技术框架：OpenGaussian的技术框架主要包含以下几个阶段：1) 使用SAM掩码训练具有3D一致性的实例特征；2) 使用两阶段码本（粗略级别的位置聚类和精细级别的特征细化）离散化实例特征；3) 建立实例级别的3D-2D特征关联，将3D点云与2D掩码和CLIP特征联系起来。整个流程旨在提升3D点云的特征表达能力，并建立有效的2D-3D特征关联。

关键创新：OpenGaussian的关键创新在于以下几个方面：1) 提出了一种基于SAM掩码的3D一致性实例特征学习方法，能够有效区分不同对象，并保证对象内部特征的一致性；2) 提出了一个两阶段码本，能够从粗到精地离散化实例特征，从而更好地表示3D点云；3) 提出了一种实例级别的3D-2D特征关联方法，能够准确地将3D点云与2D图像信息联系起来。这些创新共同提升了3D点云开放词汇理解的性能。

关键设计：在实例特征学习阶段，使用了SAM生成的掩码来指导特征的学习，确保特征具有3D一致性。在两阶段码本设计中，粗略级别使用了3D点的位置信息进行聚类，精细级别则对聚类结果进行细化。在3D-2D特征关联中，使用了实例级别的关联方法，将3D点与2D掩码和CLIP特征联系起来。具体的损失函数和网络结构细节未在摘要中详细说明，需要参考论文全文。

🖼️ 关键图片

📊 实验亮点

OpenGaussian在多个任务上进行了评估，包括开放词汇3D对象选择、3D点云理解和基于点击的3D对象选择。实验结果表明，OpenGaussian在这些任务上都取得了显著的性能提升，证明了其有效性。具体的性能数据和对比基线需要在论文中查找。

🎯 应用场景

OpenGaussian在机器人导航、自动驾驶、三维场景理解和编辑等领域具有广泛的应用前景。它可以帮助机器人理解周围环境，识别和操作物体，从而实现更智能的交互。在自动驾驶领域，它可以用于识别交通标志、行人和其他车辆，提高驾驶安全性。此外，该技术还可以应用于三维场景的编辑和重建，例如虚拟现实和增强现实。

📄 摘要（原文）

This paper introduces OpenGaussian, a method based on 3D Gaussian Splatting (3DGS) capable of 3D point-level open vocabulary understanding. Our primary motivation stems from observing that existing 3DGS-based open vocabulary methods mainly focus on 2D pixel-level parsing. These methods struggle with 3D point-level tasks due to weak feature expressiveness and inaccurate 2D-3D feature associations. To ensure robust feature presentation and 3D point-level understanding, we first employ SAM masks without cross-frame associations to train instance features with 3D consistency. These features exhibit both intra-object consistency and inter-object distinction. Then, we propose a two-stage codebook to discretize these features from coarse to fine levels. At the coarse level, we consider the positional information of 3D points to achieve location-based clustering, which is then refined at the fine level. Finally, we introduce an instance-level 3D-2D feature association method that links 3D points to 2D masks, which are further associated with 2D CLIP features. Extensive experiments, including open vocabulary-based 3D object selection, 3D point cloud understanding, click-based 3D object selection, and ablation studies, demonstrate the effectiveness of our proposed method. The source code is available at our project page: https://3d-aigc.github.io/OpenGaussian

OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理