Just Add Geometry: Gradient-Free Open-Vocabulary 3D Detection Without Human-in-the-Loop

📄 arXiv: 2507.13363v1 📥 PDF

作者: Atharv Goel, Mehar Khurana

分类: cs.CV, cs.AI

发布日期: 2025-07-06

🔗 代码/项目: GITHUB


💡 一句话要点

提出一种无需人工标注和梯度训练的开放词汇3D目标检测方法。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放词汇3D检测 免训练学习 视觉-语言模型 几何推理 3D目标检测

📋 核心要点

  1. 现有3D目标检测数据集类别有限且标注成本高昂,难以适应开放世界场景。
  2. 利用2D视觉-语言模型的语义理解能力,结合几何信息,实现无需3D标注的开放词汇3D检测。
  3. 在LiDAR和RGB-D输入下,该方法在定位性能上表现出竞争力,且无需训练。

📝 摘要(中文)

现代3D目标检测数据集受限于狭窄的类别分类和昂贵的人工标注,限制了它们在开放世界环境中的扩展能力。相比之下,在网络规模图像-文本对上训练的2D视觉-语言模型展现出丰富的语义理解能力,并通过自然语言提示支持开放词汇检测。本文利用2D基础模型的成熟度和类别多样性,在没有任何人工标注的3D标签的情况下,执行开放词汇3D目标检测。我们的流程使用2D视觉-语言检测器生成文本条件下的提议,这些提议通过SAM进行分割,并使用相机几何以及LiDAR或单目伪深度反投影到3D空间。我们引入了一种基于DBSCAN聚类和旋转卡尺的几何膨胀策略,无需训练即可推断3D边界框。为了模拟不利的真实世界条件,我们构建了Pseudo-nuScenes,这是nuScenes数据集的雾增强、仅RGB变体。实验表明,我们的方法在多种设置下实现了有竞争力的定位性能,包括基于LiDAR和纯RGB-D输入,同时保持免训练和开放词汇。我们的结果突出了2D基础模型在可扩展3D感知方面的未开发潜力。我们开源了代码和资源。

🔬 方法详解

问题定义:现有的3D目标检测方法依赖于大量人工标注的3D数据,成本高昂且类别受限,难以扩展到开放世界场景。这些方法通常需要针对特定数据集和类别进行训练,泛化能力较弱。因此,如何利用现有的2D视觉-语言模型,在无需3D标注的情况下实现开放词汇的3D目标检测是一个重要的挑战。

核心思路:本文的核心思路是利用预训练的2D视觉-语言模型强大的语义理解能力,结合几何信息,将2D检测结果提升到3D空间。通过2D检测器生成文本条件下的目标提议,并利用SAM进行分割,然后通过相机几何和深度信息将分割结果反投影到3D空间。最后,使用几何推理方法推断3D边界框,整个过程无需任何3D标注和训练。

技术框架:该方法主要包含以下几个阶段: 1. 2D目标检测:使用2D视觉-语言模型(如GLIP)生成文本条件下的目标提议。 2. 2D分割:使用SAM(Segment Anything Model)对2D目标提议进行分割。 3. 3D反投影:利用相机几何和深度信息(LiDAR或单目伪深度)将2D分割结果反投影到3D空间。 4. 3D边界框推断:使用几何膨胀策略(DBSCAN聚类和旋转卡尺)从3D点云中推断3D边界框。

关键创新:该方法最重要的创新点在于实现了无需任何3D标注和训练的开放词汇3D目标检测。与传统的3D目标检测方法相比,该方法避免了昂贵的人工标注成本,并且可以检测任意类别的物体。此外,该方法还提出了一种几何膨胀策略,用于从3D点云中推断3D边界框,无需任何训练。

关键设计: * 几何膨胀策略:使用DBSCAN聚类对反投影的3D点云进行聚类,然后使用旋转卡尺算法计算每个聚类的最小外接矩形,作为3D边界框。 * Pseudo-nuScenes数据集:为了模拟真实世界的恶劣条件,构建了一个雾增强、仅RGB的nuScenes数据集变体,用于评估该方法的鲁棒性。 * 深度信息来源:可以使用LiDAR点云或单目伪深度估计作为深度信息来源,以适应不同的应用场景。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在nuScenes数据集上取得了有竞争力的定位性能,即使在雾天等恶劣条件下也能保持较好的鲁棒性。在仅使用RGB-D输入的情况下,该方法也能取得不错的效果,证明了其在资源受限环境下的潜力。与需要大量标注数据的传统方法相比,该方法无需任何训练,具有更高的可扩展性和泛化能力。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、增强现实等领域。在自动驾驶中,可以利用该方法检测道路上的各种物体,如车辆、行人、交通标志等,提高驾驶安全性。在机器人导航中,可以帮助机器人理解周围环境,实现自主导航。在增强现实中,可以将虚拟物体与真实场景进行融合,提供更丰富的用户体验。

📄 摘要(原文)

Modern 3D object detection datasets are constrained by narrow class taxonomies and costly manual annotations, limiting their ability to scale to open-world settings. In contrast, 2D vision-language models trained on web-scale image-text pairs exhibit rich semantic understanding and support open-vocabulary detection via natural language prompts. In this work, we leverage the maturity and category diversity of 2D foundation models to perform open-vocabulary 3D object detection without any human-annotated 3D labels. Our pipeline uses a 2D vision-language detector to generate text-conditioned proposals, which are segmented with SAM and back-projected into 3D using camera geometry and either LiDAR or monocular pseudo-depth. We introduce a geometric inflation strategy based on DBSCAN clustering and Rotating Calipers to infer 3D bounding boxes without training. To simulate adverse real-world conditions, we construct Pseudo-nuScenes, a fog-augmented, RGB-only variant of the nuScenes dataset. Experiments demonstrate that our method achieves competitive localization performance across multiple settings, including LiDAR-based and purely RGB-D inputs, all while remaining training-free and open-vocabulary. Our results highlight the untapped potential of 2D foundation models for scalable 3D perception. We open-source our code and resources at https://github.com/atharv0goel/open-world-3D-det.