Shelf-Supervised Cross-Modal Pre-Training for 3D Object Detection

📄 arXiv: 2406.10115v3 📥 PDF

作者: Mehar Khurana, Neehar Peri, James Hays, Deva Ramanan

分类: cs.CV, cs.LG, cs.RO

发布日期: 2024-06-14 (更新: 2024-10-15)

备注: The first two authors contributed equally. This work has been accepted to the Conference on Robot Learning (CoRL) 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于图像预训练模型的货架监督跨模态预训练方法,提升3D目标检测在有限数据下的性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D目标检测 跨模态学习 预训练 自监督学习 伪标签 货架监督 图像基础模型

📋 核心要点

  1. 3D目标检测依赖大量标注数据,但3D标注成本高昂,现有自监督方法在小规模3D数据集上效果有限。
  2. 利用图像基础模型,通过跨模态知识迁移,为3D数据生成伪标签,进行货架监督预训练。
  3. 实验表明,该方法在nuScenes和WOD数据集上,显著提升了在有限数据下的3D目标检测性能。

📝 摘要(中文)

当前先进的3D目标检测器通常需要在大量标注数据集上进行训练。然而,标注3D bounding box的成本仍然非常高昂且耗时,特别是对于激光雷达数据。为了解决这个问题,最近的研究表明,使用未标注数据进行自监督预训练可以提高检测精度,同时减少对标注数据的需求。目前的方法主要将图像领域的自监督学习最佳实践应用于点云数据(例如对比学习)。然而,公开的3D数据集比用于图像自监督学习的数据集小得多,多样性也更低,这限制了它们的有效性。本文注意到,3D数据通常以多模态方式收集,并与图像配对。因此,本文提出使用基于图像的基础模型来引导点云表示,而不是仅使用自监督目标进行预训练。具体来说,本文提出了一种货架监督方法(例如,使用现成的图像基础模型进行监督),用于从配对的RGB和激光雷达数据生成zero-shot 3D bounding box。使用这种伪标签预训练3D检测器,可以显著提高半监督检测精度,优于之前的自监督预训练任务。重要的是,本文证明了基于图像的货架监督有助于训练仅使用激光雷达、仅使用RGB和多模态(RGB + 激光雷达)检测器。本文在nuScenes和WOD数据集上验证了该方法的有效性,在有限数据设置下显著优于现有方法。代码已开源。

🔬 方法详解

问题定义:论文旨在解决3D目标检测中,标注数据获取困难,以及现有自监督预训练方法在小规模3D数据集上效果不佳的问题。现有方法直接将图像领域的自监督学习方法迁移到点云数据上,忽略了3D数据本身的多模态特性,以及图像领域预训练模型的强大能力。

核心思路:论文的核心思路是利用图像领域的预训练模型,通过跨模态知识迁移,为3D数据生成伪标签,从而实现对3D检测器的货架监督预训练。这种方法避免了直接在小规模3D数据集上进行自监督学习,而是借助了大规模图像数据集的知识。

技术框架:整体框架包含以下几个主要阶段:1) 使用图像基础模型(如CLIP)提取图像特征;2) 将图像特征投影到3D空间,生成3D bounding box伪标签;3) 使用生成的伪标签预训练3D目标检测器。该框架可以应用于仅使用激光雷达、仅使用RGB和多模态(RGB + 激光雷达)的检测器。

关键创新:最重要的技术创新点在于提出了货架监督的概念,即利用现成的、预训练好的图像基础模型,为3D数据生成伪标签,从而实现对3D检测器的监督学习。与传统的自监督学习方法相比,该方法能够更好地利用图像领域的知识,提高3D检测器的性能。

关键设计:论文的关键设计包括:1) 如何将图像特征投影到3D空间,生成高质量的3D bounding box伪标签;2) 如何选择合适的图像基础模型;3) 如何设计预训练任务,以充分利用生成的伪标签。具体的投影方法和损失函数等细节在论文中进行了详细描述(具体细节未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在nuScenes和WOD数据集上取得了显著的性能提升。在有限数据设置下,该方法优于现有的自监督预训练方法。例如,在nuScenes数据集上,使用少量标注数据进行训练时,该方法能够显著提高检测精度(具体数值未知)。重要的是,该方法对仅使用激光雷达、仅使用RGB和多模态检测器均有效。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、机器人导航、智能安防等领域。通过降低对3D标注数据的依赖,可以加速3D目标检测技术的落地应用,降低开发成本,并提升在数据稀缺场景下的性能表现。未来,该方法可以进一步扩展到其他3D感知任务中。

📄 摘要(原文)

State-of-the-art 3D object detectors are often trained on massive labeled datasets. However, annotating 3D bounding boxes remains prohibitively expensive and time-consuming, particularly for LiDAR. Instead, recent works demonstrate that self-supervised pre-training with unlabeled data can improve detection accuracy with limited labels. Contemporary methods adapt best-practices for self-supervised learning from the image domain to point clouds (such as contrastive learning). However, publicly available 3D datasets are considerably smaller and less diverse than those used for image-based self-supervised learning, limiting their effectiveness. We do note, however, that such 3D data is naturally collected in a multimodal fashion, often paired with images. Rather than pre-training with only self-supervised objectives, we argue that it is better to bootstrap point cloud representations using image-based foundation models trained on internet-scale data. Specifically, we propose a shelf-supervised approach (e.g. supervised with off-the-shelf image foundation models) for generating zero-shot 3D bounding boxes from paired RGB and LiDAR data. Pre-training 3D detectors with such pseudo-labels yields significantly better semi-supervised detection accuracy than prior self-supervised pretext tasks. Importantly, we show that image-based shelf-supervision is helpful for training LiDAR-only, RGB-only and multi-modal (RGB + LiDAR) detectors. We demonstrate the effectiveness of our approach on nuScenes and WOD, significantly improving over prior work in limited data settings. Our code is available at https://github.com/meharkhurana03/cm3d