Search3D: Hierarchical Open-Vocabulary 3D Segmentation
作者: Ayca Takmaz, Alexandros Delitzas, Robert W. Sumner, Francis Engelmann, Johanna Wald, Federico Tombari
分类: cs.CV
发布日期: 2024-09-27 (更新: 2025-01-22)
备注: This manuscript is provided as a pre-print, it has been accepted for publication by IEEE RA-L
💡 一句话要点
提出Search3D,实现层级开放词汇3D分割与搜索
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 开放词汇3D分割 层级场景表示 3D搜索 跨模态学习 点云处理
📋 核心要点
- 现有开放词汇3D实例分割方法主要关注物体级别的实例识别,难以处理更细粒度的场景实体,如物体部件或由通用属性描述的区域。
- Search3D构建层级开放词汇3D场景表示,支持在不同粒度级别进行3D搜索,包括物体部件、完整物体以及材质等属性描述的区域。
- 论文贡献了场景级开放词汇3D部件分割基准,并在ScanNet++上进行了细粒度部件标注,实验表明Search3D优于现有基线方法。
📝 摘要(中文)
本文提出Search3D,一种构建层级开放词汇3D场景表示的方法,支持多粒度3D搜索:细粒度的物体部件、完整物体或由材质等属性描述的区域。与现有方法不同,Search3D转向更灵活的开放词汇3D搜索范式,超越了显式的以物体为中心的查询。为了系统评估,本文还贡献了一个基于MultiScan的场景级开放词汇3D部件分割基准,以及ScanNet++上的一组开放词汇细粒度部件标注。Search3D在场景级开放词汇3D部件分割中优于基线方法,同时在分割3D物体和材质方面保持了强大的性能。
🔬 方法详解
问题定义:现有开放词汇3D分割方法主要集中在物体级别的分割,无法有效处理细粒度的部件分割,以及基于属性描述的区域分割。这些方法通常依赖于预定义的物体类别,难以泛化到开放词汇场景,限制了3D场景理解的灵活性和通用性。
核心思路:Search3D的核心思路是构建一个层级的3D场景表示,允许在不同粒度级别(部件、物体、区域)进行开放词汇的搜索。通过将3D场景分解为多个层级,并利用文本描述对每个层级进行语义标注,从而实现灵活的、基于文本查询的3D场景理解。
技术框架:Search3D的整体框架包含以下几个主要模块:1) 3D场景表示模块:将3D场景表示为点云或体素,并提取几何特征。2) 文本编码模块:使用预训练的语言模型(如CLIP)对输入的文本查询进行编码,得到文本特征向量。3) 跨模态对齐模块:将3D场景的几何特征与文本特征进行对齐,学习一个共享的嵌入空间。4) 层级分割模块:基于学习到的嵌入空间,对3D场景进行层级分割,得到不同粒度的部件、物体和区域。
关键创新:Search3D的关键创新在于其层级开放词汇3D场景表示。与现有方法相比,Search3D不再局限于预定义的物体类别,而是可以根据任意的文本描述对3D场景进行分割和搜索。这种方法极大地提高了3D场景理解的灵活性和通用性。
关键设计:Search3D的关键设计包括:1) 使用CLIP模型进行文本编码,利用其强大的zero-shot能力。2) 设计了一种新的跨模态对齐损失函数,鼓励3D场景的几何特征与文本特征在嵌入空间中对齐。3) 采用了一种自底向上的层级分割策略,首先分割出细粒度的部件,然后将部件组合成物体和区域。
🖼️ 关键图片
📊 实验亮点
Search3D在新的场景级开放词汇3D部件分割基准上取得了显著的性能提升,超越了现有的基线方法。此外,Search3D在分割3D物体和材质方面也表现出色,证明了其在多粒度3D场景理解方面的有效性。具体性能数据在论文中有详细展示。
🎯 应用场景
Search3D在机器人导航、虚拟现实、增强现实、3D内容创作等领域具有广泛的应用前景。例如,在机器人导航中,机器人可以根据用户的文本指令(如“找到红色的把手”)来定位和操作物体。在虚拟现实中,用户可以通过文本描述来搜索和交互3D场景中的物体。
📄 摘要(原文)
Open-vocabulary 3D segmentation enables exploration of 3D spaces using free-form text descriptions. Existing methods for open-vocabulary 3D instance segmentation primarily focus on identifying object-level instances but struggle with finer-grained scene entities such as object parts, or regions described by generic attributes. In this work, we introduce Search3D, an approach to construct hierarchical open-vocabulary 3D scene representations, enabling 3D search at multiple levels of granularity: fine-grained object parts, entire objects, or regions described by attributes like materials. Unlike prior methods, Search3D shifts towards a more flexible open-vocabulary 3D search paradigm, moving beyond explicit object-centric queries. For systematic evaluation, we further contribute a scene-scale open-vocabulary 3D part segmentation benchmark based on MultiScan, along with a set of open-vocabulary fine-grained part annotations on ScanNet++. Search3D outperforms baselines in scene-scale open-vocabulary 3D part segmentation, while maintaining strong performance in segmenting 3D objects and materials. Our project page is http://search3d-segmentation.github.io.