Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance

📄 arXiv: 2312.10671v3 📥 PDF

作者: Phuc D. A. Nguyen, Tuan Duc Ngo, Evangelos Kalogerakis, Chuang Gan, Anh Tran, Cuong Pham, Khoi Nguyen

分类: cs.CV

发布日期: 2023-12-17 (更新: 2024-04-06)

备注: CVPR 2024. Project page: https://open3dis.github.io/


💡 一句话要点

Open3DIS:利用2D Mask引导的开放词汇3D实例分割

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D实例分割 开放词汇 2D Mask引导 点云处理 场景理解

📋 核心要点

  1. 现有开放词汇3D场景理解方法在识别小尺度和几何形状模糊的对象时表现不佳。
  2. Open3DIS通过聚合2D实例mask并将其映射到几何连贯的点云区域,生成高质量的3D对象提议。
  3. 实验表明,Open3DIS在ScanNet200、S3DIS和Replica数据集上显著提升了各种类别对象的分割性能。

📝 摘要(中文)

本文提出了一种名为Open3DIS的新颖解决方案,旨在解决3D场景中的开放词汇实例分割问题。由于3D环境中的物体呈现出各种形状、尺度和颜色,因此精确的实例级别识别是一项具有挑战性的任务。开放词汇场景理解的最新进展通过采用类无关的3D实例提议网络进行对象定位,并为每个3D mask学习可查询的特征,从而在该领域取得了显著进展。虽然这些方法产生了高质量的实例提议,但它们在识别小尺度和几何形状模糊的对象方面存在困难。我们方法的关键思想是一个新的模块,它聚合跨帧的2D实例mask,并将它们映射到几何上连贯的点云区域,作为高质量的对象提议,从而解决了上述限制。然后,将这些提议与3D类无关的实例提议相结合,以包含现实世界中的各种对象。为了验证我们的方法,我们在三个著名的数据集(包括ScanNet200、S3DIS和Replica)上进行了实验,证明了在分割具有不同类别的对象方面,相对于最先进的方法,性能有了显著提高。

🔬 方法详解

问题定义:论文旨在解决开放词汇3D场景中的实例分割问题。现有方法,特别是基于3D实例提议网络的方法,在处理小尺度和几何形状模糊的对象时存在局限性,导致分割精度下降。这些方法难以有效地利用2D图像信息来辅助3D场景理解。

核心思路:Open3DIS的核心思路是利用2D图像中的实例分割信息来引导3D实例分割。通过将2D实例mask聚合并映射到3D点云,生成高质量的3D对象提议。这种方法能够有效地利用2D图像的语义信息,弥补3D数据在几何信息上的不足,从而提高小尺度和几何形状模糊对象的分割精度。

技术框架:Open3DIS的整体框架包含以下几个主要模块:1) 2D实例分割模块:用于提取2D图像中的实例mask。2) 2D-3D映射模块:将2D实例mask映射到3D点云,生成3D对象提议。3) 3D实例提议模块:利用3D类无关的实例提议网络生成3D对象提议。4) 融合模块:将2D引导的3D对象提议和3D实例提议进行融合,得到最终的3D实例分割结果。

关键创新:Open3DIS的关键创新在于引入了2D mask引导的3D实例分割方法。与现有方法相比,Open3DIS能够有效地利用2D图像的语义信息,提高小尺度和几何形状模糊对象的分割精度。此外,Open3DIS通过融合2D引导的3D对象提议和3D实例提议,实现了更全面的对象覆盖。

关键设计:在2D-3D映射模块中,论文可能采用了相机内外参信息将2D像素反投影到3D空间,并结合点云的几何信息进行聚类,生成3D对象提议。损失函数可能包含分割损失和几何一致性损失,以保证分割结果的准确性和几何形状的合理性。具体的网络结构和参数设置在论文中应该有详细描述,但摘要中未提及。

📊 实验亮点

实验结果表明,Open3DIS在ScanNet200、S3DIS和Replica数据集上取得了显著的性能提升。具体而言,Open3DIS在分割具有不同类别的对象方面,相对于最先进的方法,性能有了显著提高。这些结果验证了Open3DIS在开放词汇3D实例分割方面的有效性。

🎯 应用场景

Open3DIS在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。例如,在机器人导航中,Open3DIS可以帮助机器人准确识别和分割环境中的各种物体,从而实现更安全、更智能的导航。在自动驾驶中,Open3DIS可以提高车辆对周围环境的感知能力,从而提高驾驶安全性。在增强现实中,Open3DIS可以实现更逼真的虚拟物体与真实环境的融合。

📄 摘要(原文)

We introduce Open3DIS, a novel solution designed to tackle the problem of Open-Vocabulary Instance Segmentation within 3D scenes. Objects within 3D environments exhibit diverse shapes, scales, and colors, making precise instance-level identification a challenging task. Recent advancements in Open-Vocabulary scene understanding have made significant strides in this area by employing class-agnostic 3D instance proposal networks for object localization and learning queryable features for each 3D mask. While these methods produce high-quality instance proposals, they struggle with identifying small-scale and geometrically ambiguous objects. The key idea of our method is a new module that aggregates 2D instance masks across frames and maps them to geometrically coherent point cloud regions as high-quality object proposals addressing the above limitations. These are then combined with 3D class-agnostic instance proposals to include a wide range of objects in the real world. To validate our approach, we conducted experiments on three prominent datasets, including ScanNet200, S3DIS, and Replica, demonstrating significant performance gains in segmenting objects with diverse categories over the state-of-the-art approaches.