View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields

📄 arXiv: 2405.19678v2 📥 PDF

作者: Haodi He, Colton Stearns, Adam W. Harley, Leonidas J. Guibas

分类: cs.CV, cs.AI

发布日期: 2024-05-30 (更新: 2024-07-18)

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于超度量特征场的3D一致性分层分割方法,解决视角不一致问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D分割 神经辐射场 NeRF 超度量学习 视角一致性 分层分割 多视角学习

📋 核心要点

  1. 现有方法在多视角场景中,图像分割结果缺乏3D一致性,且粗细粒度的划分随视角变化。
  2. 提出在NeRF中学习超度量特征场,通过距离阈值控制分割粒度,实现3D一致的分层分割。
  3. 在合成数据集上验证了方法的有效性,提高了分割精度和视角一致性,并在真实场景中展示了分层分割效果。

📝 摘要(中文)

本文提出了一种将多粒度、视角不一致的图像分割提升为分层且3D一致表示的方法。该方法在神经辐射场(NeRF)中学习一种新的特征场,通过简单地对特征距离设置不同的阈值,即可在不同尺度上揭示其分割结构。核心思想是学习一个超度量特征空间,与欧几里得空间不同,它在基于距离的分组中表现出传递性,自然地导致分层聚类。该方法以视角不一致的多粒度2D分割作为输入,并生成3D一致分割的层次结构作为输出。在合成数据集上,通过多视角图像和多粒度分割对该方法和几个基线进行了评估,展示了改进的准确性和视角一致性。此外,还提供了模型在真实场景中进行3D分层分割的定性示例。代码和数据集已公开。

🔬 方法详解

问题定义:现有的基于视觉基础模型(如Segment Anything, SAM)的图像分割方法,在多视角场景下,分割结果缺乏3D一致性。这意味着同一物体在不同视角下可能被分割成不同的部分,或者被赋予不同的分割粒度(粗或细)。这种视角不一致性限制了这些方法在3D场景理解和重建中的应用。

核心思路:本文的核心思路是学习一个在3D空间中具有超度量性质的特征场。超度量空间的一个关键特性是其距离满足强三角不等式(d(x, z) <= max(d(x, y), d(y, z))),这使得基于距离的聚类具有传递性,从而自然地形成层次结构。通过在NeRF中学习这样的特征场,可以通过简单地改变距离阈值来控制分割的粒度,同时保证3D一致性。

技术框架:该方法的技术框架主要包含以下几个步骤:1) 使用多视角图像和对应的多粒度2D分割作为输入;2) 利用NeRF重建3D场景;3) 在NeRF中学习超度量特征场,该特征场将3D空间中的每个点映射到一个超度量空间中的特征向量;4) 通过对特征距离设置不同的阈值,提取不同粒度的3D分割结果。

关键创新:最重要的技术创新点是学习超度量特征场。与传统的欧几里得特征空间不同,超度量空间能够保证分割的层次结构和3D一致性。通过利用超度量空间的传递性,可以避免在不同视角下产生不一致的分割结果。

关键设计:在NeRF中学习超度量特征场时,使用了对比学习损失函数来鼓励相似的像素具有相似的特征向量,而不相似的像素具有不同的特征向量。此外,还设计了一种特殊的网络结构来保证学习到的特征空间具有超度量性质。具体的损失函数和网络结构细节在论文中有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在合成数据集上进行了评估,结果表明,与现有方法相比,该方法在分割精度和视角一致性方面均有显著提升。具体性能数据和对比基线在论文中给出(未知)。此外,该方法还在真实场景中进行了定性评估,展示了其在复杂场景中进行3D分层分割的能力。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、3D场景理解、虚拟现实等领域。通过提供3D一致且分层的场景分割,可以帮助机器人更好地理解周围环境,从而实现更智能的交互和决策。例如,在自动驾驶中,可以利用该方法对道路场景进行分割,识别车辆、行人、交通标志等,从而提高驾驶安全性。

📄 摘要(原文)

Large-scale vision foundation models such as Segment Anything (SAM) demonstrate impressive performance in zero-shot image segmentation at multiple levels of granularity. However, these zero-shot predictions are rarely 3D-consistent. As the camera viewpoint changes in a scene, so do the segmentation predictions, as well as the characterizations of "coarse" or "fine" granularity. In this work, we address the challenging task of lifting multi-granular and view-inconsistent image segmentations into a hierarchical and 3D-consistent representation. We learn a novel feature field within a Neural Radiance Field (NeRF) representing a 3D scene, whose segmentation structure can be revealed at different scales by simply using different thresholds on feature distance. Our key idea is to learn an ultrametric feature space, which unlike a Euclidean space, exhibits transitivity in distance-based grouping, naturally leading to a hierarchical clustering. Put together, our method takes view-inconsistent multi-granularity 2D segmentations as input and produces a hierarchy of 3D-consistent segmentations as output. We evaluate our method and several baselines on synthetic datasets with multi-view images and multi-granular segmentation, showcasing improved accuracy and viewpoint-consistency. We additionally provide qualitative examples of our model's 3D hierarchical segmentations in real world scenes. The code and dataset are available at https://github.com/hardyho/ultrametric_feature_fields