Zoo3D: Zero-Shot 3D Object Detection at Scene Level

📄 arXiv: 2511.20253v1 📥 PDF

作者: Andrey Lemeshko, Bulat Gabdullin, Nikita Drozdov, Anton Konushin, Danila Rukhovich, Maksim Kolodiazhnyi

分类: cs.CV

发布日期: 2025-11-25

🔗 代码/项目: GITHUB


💡 一句话要点

Zoo3D:提出一种场景级零样本3D目标检测框架,无需训练即可实现SOTA性能。

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 3D目标检测 零样本学习 开放词汇 图聚类 场景理解

📋 核心要点

  1. 现有3D目标检测方法在识别未见过的物体时存在局限性,开放词汇方法仍依赖于训练数据。
  2. Zoo3D通过图聚类2D实例掩码构建3D边界框,并利用开放词汇模块进行语义标签分配,无需训练。
  3. Zoo3D在ScanNet200和ARKitScenes上取得了SOTA结果,零样本模式甚至超越了现有自监督方法。

📝 摘要(中文)

3D目标检测是空间理解的基础。真实环境需要模型能够识别各种先前未见过的对象,这仍然是封闭集方法的主要限制。现有的开放词汇3D检测器放宽了标注要求,但仍然依赖于训练场景,无论是点云还是图像。本文更进一步,提出了Zoo3D,这是第一个无需训练的3D目标检测框架。该方法通过2D实例掩码的图聚类构建3D边界框,然后使用一种新颖的开放词汇模块,通过最佳视图选择和视图一致性掩码生成来分配语义标签。Zoo3D以两种模式运行:零样本Zoo3D$_0$,完全不需要训练;以及自监督Zoo3D$_1$,通过在Zoo3D$_0$生成的伪标签上训练一个类别无关的检测器来细化3D框预测。此外,本文将Zoo3D扩展到可以直接处理带姿态甚至不带姿态的图像。在ScanNet200和ARKitScenes基准测试中,Zoo3D$_0$和Zoo3D$_1$都在开放词汇3D目标检测中取得了最先进的结果。值得注意的是,零样本Zoo3D$_0$优于所有现有的自监督方法,从而证明了免训练、现成方法在真实世界3D理解中的强大功能和适应性。

🔬 方法详解

问题定义:现有3D目标检测方法,特别是开放词汇3D检测器,仍然需要大量的训练数据,或者依赖于特定的训练场景。这限制了它们在真实世界环境中的泛化能力,因为真实世界环境包含各种各样未见过的物体。因此,如何设计一种无需训练,即可在开放词汇场景下进行3D目标检测的方法是一个关键问题。

核心思路:Zoo3D的核心思路是利用现有的2D图像分割和开放词汇识别技术,结合几何推理,来构建3D场景的理解。它避免了直接在3D数据上进行训练,而是通过将2D的语义信息投影到3D空间,并利用图聚类来推断3D物体的边界框。这种方法的核心在于利用2D视觉信息的丰富性和开放词汇识别的灵活性,从而实现零样本的3D目标检测。

技术框架:Zoo3D的整体框架包含以下几个主要阶段:1) 2D实例分割:使用现成的2D实例分割模型,从多个视角的图像中提取实例掩码。2) 3D边界框构建:通过对2D实例掩码进行图聚类,将来自不同视角的掩码关联起来,并构建3D边界框。3) 开放词汇语义标注:使用开放词汇模型,为每个3D边界框选择最佳视角,并生成视图一致性掩码,从而进行语义标签的分配。4) (可选) 自监督微调:使用Zoo3D$_0$生成的伪标签,训练一个类别无关的3D目标检测器,以进一步提升性能。

关键创新:Zoo3D最关键的创新在于它完全避免了3D数据的训练,而是利用现成的2D模型和几何推理来实现零样本的3D目标检测。与现有方法相比,Zoo3D不需要任何3D标注数据,也不依赖于特定的训练场景,因此具有更强的泛化能力和适应性。此外,Zoo3D提出的视图一致性掩码生成方法,有效地利用了多视角信息,提高了语义标注的准确性。

关键设计:在3D边界框构建阶段,Zoo3D使用图聚类算法,将来自不同视角的2D实例掩码关联起来。图的节点表示2D掩码,边表示掩码之间的相似度。相似度可以基于掩码的IoU、位置关系等进行计算。在开放词汇语义标注阶段,Zoo3D使用CLIP模型来选择最佳视角,并生成视图一致性掩码。视图一致性掩码通过对来自不同视角的掩码进行融合,从而减少噪声和提高准确性。

📊 实验亮点

Zoo3D在ScanNet200和ARKitScenes基准测试中取得了显著的成果。零样本Zoo3D$_0$超越了所有现有的自监督方法,证明了其在开放词汇3D目标检测中的有效性。自监督Zoo3D$_1$通过在Zoo3D$_0$生成的伪标签上进行微调,进一步提升了性能,达到了SOTA水平。这些结果表明,Zoo3D是一种具有竞争力的3D目标检测方法。

🎯 应用场景

Zoo3D在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。它可以帮助机器人在未知环境中进行物体识别和场景理解,从而实现更智能的交互和决策。此外,Zoo3D还可以用于3D场景重建、虚拟现实内容生成等领域,具有重要的实际价值和未来影响。

📄 摘要(原文)

3D object detection is fundamental for spatial understanding. Real-world environments demand models capable of recognizing diverse, previously unseen objects, which remains a major limitation of closed-set methods. Existing open-vocabulary 3D detectors relax annotation requirements but still depend on training scenes, either as point clouds or images. We take this a step further by introducing Zoo3D, the first training-free 3D object detection framework. Our method constructs 3D bounding boxes via graph clustering of 2D instance masks, then assigns semantic labels using a novel open-vocabulary module with best-view selection and view-consensus mask generation. Zoo3D operates in two modes: the zero-shot Zoo3D$_0$, which requires no training at all, and the self-supervised Zoo3D$_1$, which refines 3D box prediction by training a class-agnostic detector on Zoo3D$_0$-generated pseudo labels. Furthermore, we extend Zoo3D beyond point clouds to work directly with posed and even unposed images. Across ScanNet200 and ARKitScenes benchmarks, both Zoo3D$_0$ and Zoo3D$_1$ achieve state-of-the-art results in open-vocabulary 3D object detection. Remarkably, our zero-shot Zoo3D$_0$ outperforms all existing self-supervised methods, hence demonstrating the power and adaptability of training-free, off-the-shelf approaches for real-world 3D understanding. Code is available at https://github.com/col14m/zoo3d .