Just Add Geometry: Gradient-Free Open-Vocabulary 3D Detection Without Human-in-the-Loop

作者: Atharv Goel, Mehar Khurana

分类: cs.CV, cs.AI

发布日期: 2025-07-06

🔗 代码/项目: GITHUB

💡 一句话要点

提出一种无需人工标注和梯度训练的开放词汇3D目标检测方法。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 开放词汇3D检测 免训练学习 视觉-语言模型 几何推理 3D目标检测

📋 核心要点

现有3D目标检测数据集类别有限且标注成本高昂，难以适应开放世界场景。
利用2D视觉-语言模型的语义理解能力，结合几何信息，实现无需3D标注的开放词汇3D检测。
在LiDAR和RGB-D输入下，该方法在定位性能上表现出竞争力，且无需训练。

📝 摘要（中文）

现代3D目标检测数据集受限于狭窄的类别分类和昂贵的人工标注，限制了它们在开放世界环境中的扩展能力。相比之下，在网络规模图像-文本对上训练的2D视觉-语言模型展现出丰富的语义理解能力，并通过自然语言提示支持开放词汇检测。本文利用2D基础模型的成熟度和类别多样性，在没有任何人工标注的3D标签的情况下，执行开放词汇3D目标检测。我们的流程使用2D视觉-语言检测器生成文本条件下的提议，这些提议通过SAM进行分割，并使用相机几何以及LiDAR或单目伪深度反投影到3D空间。我们引入了一种基于DBSCAN聚类和旋转卡尺的几何膨胀策略，无需训练即可推断3D边界框。为了模拟不利的真实世界条件，我们构建了Pseudo-nuScenes，这是nuScenes数据集的雾增强、仅RGB变体。实验表明，我们的方法在多种设置下实现了有竞争力的定位性能，包括基于LiDAR和纯RGB-D输入，同时保持免训练和开放词汇。我们的结果突出了2D基础模型在可扩展3D感知方面的未开发潜力。我们开源了代码和资源。

🔬 方法详解

问题定义：现有的3D目标检测方法依赖于大量人工标注的3D数据，成本高昂且类别受限，难以扩展到开放世界场景。这些方法通常需要针对特定数据集和类别进行训练，泛化能力较弱。因此，如何利用现有的2D视觉-语言模型，在无需3D标注的情况下实现开放词汇的3D目标检测是一个重要的挑战。

核心思路：本文的核心思路是利用预训练的2D视觉-语言模型强大的语义理解能力，结合几何信息，将2D检测结果提升到3D空间。通过2D检测器生成文本条件下的目标提议，并利用SAM进行分割，然后通过相机几何和深度信息将分割结果反投影到3D空间。最后，使用几何推理方法推断3D边界框，整个过程无需任何3D标注和训练。

技术框架：该方法主要包含以下几个阶段： 1. 2D目标检测：使用2D视觉-语言模型（如GLIP）生成文本条件下的目标提议。 2. 2D分割：使用SAM（Segment Anything Model）对2D目标提议进行分割。 3. 3D反投影：利用相机几何和深度信息（LiDAR或单目伪深度）将2D分割结果反投影到3D空间。 4. 3D边界框推断：使用几何膨胀策略（DBSCAN聚类和旋转卡尺）从3D点云中推断3D边界框。

关键创新：该方法最重要的创新点在于实现了无需任何3D标注和训练的开放词汇3D目标检测。与传统的3D目标检测方法相比，该方法避免了昂贵的人工标注成本，并且可以检测任意类别的物体。此外，该方法还提出了一种几何膨胀策略，用于从3D点云中推断3D边界框，无需任何训练。

关键设计： * 几何膨胀策略：使用DBSCAN聚类对反投影的3D点云进行聚类，然后使用旋转卡尺算法计算每个聚类的最小外接矩形，作为3D边界框。 * Pseudo-nuScenes数据集：为了模拟真实世界的恶劣条件，构建了一个雾增强、仅RGB的nuScenes数据集变体，用于评估该方法的鲁棒性。 * 深度信息来源：可以使用LiDAR点云或单目伪深度估计作为深度信息来源，以适应不同的应用场景。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在nuScenes数据集上取得了有竞争力的定位性能，即使在雾天等恶劣条件下也能保持较好的鲁棒性。在仅使用RGB-D输入的情况下，该方法也能取得不错的效果，证明了其在资源受限环境下的潜力。与需要大量标注数据的传统方法相比，该方法无需任何训练，具有更高的可扩展性和泛化能力。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、增强现实等领域。在自动驾驶中，可以利用该方法检测道路上的各种物体，如车辆、行人、交通标志等，提高驾驶安全性。在机器人导航中，可以帮助机器人理解周围环境，实现自主导航。在增强现实中，可以将虚拟物体与真实场景进行融合，提供更丰富的用户体验。

📄 摘要（原文）

Modern 3D object detection datasets are constrained by narrow class taxonomies and costly manual annotations, limiting their ability to scale to open-world settings. In contrast, 2D vision-language models trained on web-scale image-text pairs exhibit rich semantic understanding and support open-vocabulary detection via natural language prompts. In this work, we leverage the maturity and category diversity of 2D foundation models to perform open-vocabulary 3D object detection without any human-annotated 3D labels. Our pipeline uses a 2D vision-language detector to generate text-conditioned proposals, which are segmented with SAM and back-projected into 3D using camera geometry and either LiDAR or monocular pseudo-depth. We introduce a geometric inflation strategy based on DBSCAN clustering and Rotating Calipers to infer 3D bounding boxes without training. To simulate adverse real-world conditions, we construct Pseudo-nuScenes, a fog-augmented, RGB-only variant of the nuScenes dataset. Experiments demonstrate that our method achieves competitive localization performance across multiple settings, including LiDAR-based and purely RGB-D inputs, all while remaining training-free and open-vocabulary. Our results highlight the untapped potential of 2D foundation models for scalable 3D perception. We open-source our code and resources at https://github.com/atharv0goel/open-world-3D-det.

Just Add Geometry: Gradient-Free Open-Vocabulary 3D Detection Without Human-in-the-Loop

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理