Search3D: Hierarchical Open-Vocabulary 3D Segmentation

作者: Ayca Takmaz, Alexandros Delitzas, Robert W. Sumner, Francis Engelmann, Johanna Wald, Federico Tombari

分类: cs.CV

发布日期: 2024-09-27 (更新: 2025-01-22)

备注: This manuscript is provided as a pre-print, it has been accepted for publication by IEEE RA-L

💡 一句话要点

提出Search3D，实现层级开放词汇3D分割与搜索

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 开放词汇3D分割 层级场景表示 3D搜索 跨模态学习 点云处理

📋 核心要点

现有开放词汇3D实例分割方法主要关注物体级别的实例识别，难以处理更细粒度的场景实体，如物体部件或由通用属性描述的区域。
Search3D构建层级开放词汇3D场景表示，支持在不同粒度级别进行3D搜索，包括物体部件、完整物体以及材质等属性描述的区域。
论文贡献了场景级开放词汇3D部件分割基准，并在ScanNet++上进行了细粒度部件标注，实验表明Search3D优于现有基线方法。

📝 摘要（中文）

本文提出Search3D，一种构建层级开放词汇3D场景表示的方法，支持多粒度3D搜索：细粒度的物体部件、完整物体或由材质等属性描述的区域。与现有方法不同，Search3D转向更灵活的开放词汇3D搜索范式，超越了显式的以物体为中心的查询。为了系统评估，本文还贡献了一个基于MultiScan的场景级开放词汇3D部件分割基准，以及ScanNet++上的一组开放词汇细粒度部件标注。Search3D在场景级开放词汇3D部件分割中优于基线方法，同时在分割3D物体和材质方面保持了强大的性能。

🔬 方法详解

问题定义：现有开放词汇3D分割方法主要集中在物体级别的分割，无法有效处理细粒度的部件分割，以及基于属性描述的区域分割。这些方法通常依赖于预定义的物体类别，难以泛化到开放词汇场景，限制了3D场景理解的灵活性和通用性。

核心思路：Search3D的核心思路是构建一个层级的3D场景表示，允许在不同粒度级别（部件、物体、区域）进行开放词汇的搜索。通过将3D场景分解为多个层级，并利用文本描述对每个层级进行语义标注，从而实现灵活的、基于文本查询的3D场景理解。

技术框架：Search3D的整体框架包含以下几个主要模块：1) 3D场景表示模块：将3D场景表示为点云或体素，并提取几何特征。2) 文本编码模块：使用预训练的语言模型（如CLIP）对输入的文本查询进行编码，得到文本特征向量。3) 跨模态对齐模块：将3D场景的几何特征与文本特征进行对齐，学习一个共享的嵌入空间。4) 层级分割模块：基于学习到的嵌入空间，对3D场景进行层级分割，得到不同粒度的部件、物体和区域。

关键创新：Search3D的关键创新在于其层级开放词汇3D场景表示。与现有方法相比，Search3D不再局限于预定义的物体类别，而是可以根据任意的文本描述对3D场景进行分割和搜索。这种方法极大地提高了3D场景理解的灵活性和通用性。

关键设计：Search3D的关键设计包括：1) 使用CLIP模型进行文本编码，利用其强大的zero-shot能力。2) 设计了一种新的跨模态对齐损失函数，鼓励3D场景的几何特征与文本特征在嵌入空间中对齐。3) 采用了一种自底向上的层级分割策略，首先分割出细粒度的部件，然后将部件组合成物体和区域。

🖼️ 关键图片

📊 实验亮点

Search3D在新的场景级开放词汇3D部件分割基准上取得了显著的性能提升，超越了现有的基线方法。此外，Search3D在分割3D物体和材质方面也表现出色，证明了其在多粒度3D场景理解方面的有效性。具体性能数据在论文中有详细展示。

🎯 应用场景

Search3D在机器人导航、虚拟现实、增强现实、3D内容创作等领域具有广泛的应用前景。例如，在机器人导航中，机器人可以根据用户的文本指令（如“找到红色的把手”）来定位和操作物体。在虚拟现实中，用户可以通过文本描述来搜索和交互3D场景中的物体。

📄 摘要（原文）

Open-vocabulary 3D segmentation enables exploration of 3D spaces using free-form text descriptions. Existing methods for open-vocabulary 3D instance segmentation primarily focus on identifying object-level instances but struggle with finer-grained scene entities such as object parts, or regions described by generic attributes. In this work, we introduce Search3D, an approach to construct hierarchical open-vocabulary 3D scene representations, enabling 3D search at multiple levels of granularity: fine-grained object parts, entire objects, or regions described by attributes like materials. Unlike prior methods, Search3D shifts towards a more flexible open-vocabulary 3D search paradigm, moving beyond explicit object-centric queries. For systematic evaluation, we further contribute a scene-scale open-vocabulary 3D part segmentation benchmark based on MultiScan, along with a set of open-vocabulary fine-grained part annotations on ScanNet++. Search3D outperforms baselines in scene-scale open-vocabulary 3D part segmentation, while maintaining strong performance in segmenting 3D objects and materials. Our project page is http://search3d-segmentation.github.io.

Search3D: Hierarchical Open-Vocabulary 3D Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理