Vocabulary-Free 3D Instance Segmentation with Vision and Language Assistant

作者: Guofeng Mei, Luigi Riz, Yiming Wang, Fabio Poiesi

分类: cs.CV, cs.AI

发布日期: 2024-08-20 (更新: 2025-03-28)

备注: Accepted by 3DV

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出PoVo，首个无需词汇表的3D实例分割方法，利用视觉-语言助手实现开放场景理解。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D实例分割 无词汇表 视觉-语言模型 谱聚类 点云处理 场景理解 开放词汇

📋 核心要点

现有开放词汇3D实例分割方法依赖用户提供的词汇表，无法进行开放式的场景理解，例如“列出场景中的所有物体”。
论文提出PoVo，利用视觉-语言助手和2D实例分割器，无需预定义词汇表即可发现和分割3D场景中的物体实例。
实验结果表明，PoVo在ScanNet200和Replica数据集上，无论在无词汇表还是开放词汇表设定下，均超越了现有方法。

📝 摘要（中文）

本文提出了一种全新的3D实例分割方法，旨在解决传统方法依赖预定义词汇表的局限性。该方法是首个在无词汇表设定的场景下进行3D实例分割的尝试。我们利用大型视觉-语言助手和开放词汇的2D实例分割器，在输入的图像上发现并定位语义类别。为了生成3D实例掩码，首先将点云分割成密集的超点，然后将这些超点合并成3D实例掩码。我们提出了一种新颖的超点合并策略，通过谱聚类同时考虑掩码一致性和语义一致性，这些一致性是从2D对象实例掩码中估计得到的。在ScanNet200和Replica数据集上的实验结果表明，我们的方法在无词汇表和开放词汇表两种设定下均优于现有方法。代码即将开源。

🔬 方法详解

问题定义：现有的3D实例分割方法，即使是开放词汇的方法，也需要预先定义一个词汇表，模型只能在这个词汇表内的概念上进行推理。这意味着模型无法回答像“场景里有什么物体？”这样开放式的问题，限制了其在真实世界场景中的应用。

核心思路：论文的核心思路是利用大型视觉-语言模型（Vision-Language Model, VLM）的强大语义理解能力，结合2D实例分割的结果，来引导3D点云的分割和聚类。通过VLM对图像的理解，可以获得场景中物体的语义信息，从而指导3D点云的分割，避免了对预定义词汇表的依赖。

技术框架：PoVo的整体框架包含以下几个主要步骤：1) 使用2D实例分割器在多视角图像上生成实例掩码；2) 利用视觉-语言模型对2D实例进行语义标注；3) 将3D点云分割成超点；4) 使用谱聚类方法将超点合并成3D实例掩码，聚类过程同时考虑了掩码一致性和语义一致性。掩码一致性是指相邻超点属于同一实例的可能性，语义一致性是指相邻超点具有相同语义的可能性。

关键创新：该方法最重要的创新点在于提出了一个完全无需词汇表的3D实例分割框架。通过结合2D视觉信息和视觉-语言模型的语义理解能力，实现了对3D场景的开放式理解和分割。与现有方法相比，PoVo不再依赖预定义的词汇表，能够处理更复杂、更真实的场景。

关键设计：在超点合并阶段，论文设计了一个基于谱聚类的算法，该算法同时考虑了掩码一致性和语义一致性。掩码一致性通过2D实例掩码的投影来估计，语义一致性通过视觉-语言模型对2D实例的语义标注来估计。谱聚类的目标函数旨在最大化簇内超点的相似性，同时最小化簇间超点的相似性。具体的参数设置和损失函数细节在论文中有详细描述，例如如何平衡掩码一致性和语义一致性的权重。

🖼️ 关键图片

📊 实验亮点

PoVo在ScanNet200和Replica数据集上进行了评估，实验结果表明，在无词汇表设定下，PoVo显著优于现有的开放词汇方法。此外，在开放词汇设定下，PoVo也取得了与现有方法相当甚至更好的性能。具体的性能提升数据需要在论文中查找。

🎯 应用场景

该研究成果可广泛应用于机器人导航、自动驾驶、场景理解、三维重建等领域。无需预定义词汇表的特性使得该方法在处理复杂、未知的环境时具有更大的优势。未来，该方法可以进一步扩展到其他3D视觉任务，例如目标检测、场景图生成等。

📄 摘要（原文）

Most recent 3D instance segmentation methods are open vocabulary, offering a greater flexibility than closed-vocabulary methods. Yet, they are limited to reasoning within a specific set of concepts, \ie the vocabulary, prompted by the user at test time. In essence, these models cannot reason in an open-ended fashion, i.e., answering "List the objects in the scene.''. We introduce the first method to address 3D instance segmentation in a setting that is void of any vocabulary prior, namely a vocabulary-free setting. We leverage a large vision-language assistant and an open-vocabulary 2D instance segmenter to discover and ground semantic categories on the posed images. To form 3D instance mask, we first partition the input point cloud into dense superpoints, which are then merged into 3D instance masks. We propose a novel superpoint merging strategy via spectral clustering, accounting for both mask coherence and semantic coherence that are estimated from the 2D object instance masks. We evaluate our method using ScanNet200 and Replica, outperforming existing methods in both vocabulary-free and open-vocabulary settings. Code will be made available. Project page: https://gfmei.github.io/PoVo

Vocabulary-Free 3D Instance Segmentation with Vision and Language Assistant

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理