ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images
作者: Timing Yang, Yuanliang Ju, Li Yi
分类: cs.CV
发布日期: 2024-10-31
备注: Accepted by NeurIPS 2024. Code link https://github.com/yangtiming/ImOV3D
期刊: NeurIPS 2024
🔗 代码/项目: GITHUB
💡 一句话要点
ImOV3D:仅用2D图像学习开放词汇3D点云目标检测
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放词汇3D目标检测 伪多模态学习 2D图像 3D点云 模态转换 单目深度估计 领域自适应
📋 核心要点
- 现有开放词汇3D目标检测方法受限于3D标注数据的稀缺,难以有效泛化到新类别。
- ImOV3D通过伪多模态表示,将2D图像知识迁移到3D点云,弥合模态差异。
- 实验表明,ImOV3D在SUNRGBD和ScanNet上显著优于现有方法,即使没有3D训练数据。
📝 摘要(中文)
开放词汇3D目标检测(OV-3Det)旨在泛化到训练阶段标记的有限数量的基础类别之外。最大的瓶颈是带标注的3D数据的稀缺性,而2D图像数据集丰富且标注详尽。因此,很自然地利用2D图像中丰富的标注来缓解OV-3Det中固有的数据稀缺性。本文将任务设置推向极限,探索仅使用2D图像来学习OV-3Det的潜力。这种设置的主要挑战是训练图像和测试点云之间的模态差异,这阻碍了2D知识有效集成到OV-3Det中。为了应对这一挑战,我们提出了一个新颖的框架ImOV3D,利用包含图像和点云(PC)的伪多模态表示来弥合模态差距。ImOV3D的关键在于灵活的模态转换,其中2D图像可以使用单目深度估计提升到3D,也可以通过渲染从3D场景中导出。这允许将训练图像和测试点云统一到通用的图像-PC表示中,包含丰富的2D语义信息,并结合了3D空间数据的深度和结构特征。我们仔细地进行这种转换,以最大限度地减少训练和测试用例之间的领域差距。在SUNRGBD和ScanNet两个基准数据集上的大量实验表明,即使在没有真实3D训练数据的情况下,ImOV3D也显著优于现有方法。通过包含少量真实3D数据进行微调,性能也显著超过了先前的最先进水平。
🔬 方法详解
问题定义:开放词汇3D目标检测旨在检测训练集中未见过的物体类别。现有方法受限于3D标注数据的稀缺性,难以有效学习和泛化。直接在2D图像上训练模型并应用于3D点云存在模态差异,导致性能下降。
核心思路:ImOV3D的核心思路是利用2D图像的丰富语义信息来辅助3D目标检测。通过构建伪多模态表示,将2D图像和3D点云统一到同一特征空间,从而弥合模态差异,实现知识迁移。
技术框架:ImOV3D包含以下主要模块:1) 2D图像特征提取器:提取2D图像的视觉特征。2) 单目深度估计:将2D图像转换为伪3D点云。3) 3D点云渲染:将3D点云渲染成伪2D图像。4) 多模态特征融合:融合2D图像特征和3D点云特征。5) 3D目标检测器:基于融合后的特征进行3D目标检测。
关键创新:ImOV3D的关键创新在于灵活的模态转换机制,允许在2D图像和3D点云之间进行转换,从而构建伪多模态表示。这种表示方法能够有效利用2D图像的语义信息,并保留3D点云的几何结构信息。与现有方法相比,ImOV3D无需依赖大量的3D标注数据,即可实现开放词汇3D目标检测。
关键设计:ImOV3D使用预训练的视觉Transformer作为2D图像特征提取器。单目深度估计采用现有的深度估计模型。3D点云渲染采用透视投影模型。多模态特征融合采用注意力机制。3D目标检测器采用基于PointNet++的网络结构。损失函数包括目标检测损失和深度估计损失。
🖼️ 关键图片
📊 实验亮点
ImOV3D在SUNRGBD和ScanNet数据集上取得了显著的性能提升。在没有3D训练数据的情况下,ImOV3D的性能优于现有的开放词汇3D目标检测方法。通过少量3D数据进行微调后,ImOV3D的性能进一步提升,超过了之前的state-of-the-art方法。例如,在ScanNet数据集上,ImOV3D的mAP指标提升了超过10个百分点。
🎯 应用场景
ImOV3D可应用于机器人导航、自动驾驶、增强现实等领域。例如,机器人可以在未知环境中检测和识别未见过的物体,从而实现更智能的交互。自动驾驶系统可以利用ImOV3D检测道路上的新物体,提高安全性。增强现实应用可以识别真实世界中的物体,并提供相关信息。
📄 摘要(原文)
Open-vocabulary 3D object detection (OV-3Det) aims to generalize beyond the limited number of base categories labeled during the training phase. The biggest bottleneck is the scarcity of annotated 3D data, whereas 2D image datasets are abundant and richly annotated. Consequently, it is intuitive to leverage the wealth of annotations in 2D images to alleviate the inherent data scarcity in OV-3Det. In this paper, we push the task setup to its limits by exploring the potential of using solely 2D images to learn OV-3Det. The major challenges for this setup is the modality gap between training images and testing point clouds, which prevents effective integration of 2D knowledge into OV-3Det. To address this challenge, we propose a novel framework ImOV3D to leverage pseudo multimodal representation containing both images and point clouds (PC) to close the modality gap. The key of ImOV3D lies in flexible modality conversion where 2D images can be lifted into 3D using monocular depth estimation and can also be derived from 3D scenes through rendering. This allows unifying both training images and testing point clouds into a common image-PC representation, encompassing a wealth of 2D semantic information and also incorporating the depth and structural characteristics of 3D spatial data. We carefully conduct such conversion to minimize the domain gap between training and test cases. Extensive experiments on two benchmark datasets, SUNRGBD and ScanNet, show that ImOV3D significantly outperforms existing methods, even in the absence of ground truth 3D training data. With the inclusion of a minimal amount of real 3D data for fine-tuning, the performance also significantly surpasses previous state-of-the-art. Codes and pre-trained models are released on the https://github.com/yangtiming/ImOV3D.