Enhancing Pseudo-Boxes via Data-Level LiDAR-Camera Fusion for Unsupervised 3D Object Detection
作者: Mingqian Ji, Jian Yang, Shanshan Zhang
分类: cs.CV
发布日期: 2025-08-28
备注: Accepted by ACM MM 2025
💡 一句话要点
提出数据级LiDAR-Camera融合方法,用于无监督3D目标检测,显著提升伪标签质量。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 无监督学习 3D目标检测 LiDAR-Camera融合 数据级融合 伪标签生成
📋 核心要点
- 现有无监督3D目标检测方法在融合LiDAR和RGB信息时,主要采用标签级融合,忽略了数据层面的互补性,导致伪标签质量提升有限。
- 论文提出一种数据级融合框架,利用视觉基础模型进行图像分割和深度估计,通过双向融合增强点云密度和类别信息,提升伪标签质量。
- 实验结果表明,该方法在nuScenes数据集上显著优于现有方法,mAP提升高达28.4$\%$,验证了数据级融合的有效性。
📝 摘要(中文)
现有的基于LiDAR的3D目标检测器通常依赖于手动标注的标签进行训练以获得良好的性能。然而,获取高质量的3D标签既耗时又费力。为了解决这个问题,最近的研究探索了无监督3D目标检测,引入RGB图像作为辅助模态来辅助伪标签生成。然而,这些方法只是简单地融合LiDAR点云和RGB图像生成的伪标签。这种标签级融合策略对伪标签质量的提升有限,因为它忽略了LiDAR和RGB图像数据在本质上的互补性。为了克服上述局限性,我们提出了一种新的数据级融合框架,该框架在早期阶段整合RGB图像和LiDAR数据。具体来说,我们利用视觉基础模型对图像进行实例分割和深度估计,并引入双向融合方法,其中真实点从2D空间获取类别标签,而2D像素被投影到3D以增强真实点密度。为了减轻深度和分割估计带来的噪声,我们提出了一种局部和全局滤波方法,该方法应用局部半径滤波来抑制深度估计误差,并应用全局统计滤波来消除分割引起的异常值。此外,我们提出了一种基于数据级融合的动态自进化策略,该策略在密集表示下迭代地细化伪标签,显著提高了定位精度。在nuScenes数据集上的大量实验表明,通过我们的方法训练的检测器明显优于通过先前最先进的方法训练的检测器,在nuScenes验证基准上实现了28.4$\%$的mAP提升。
🔬 方法详解
问题定义:现有的无监督3D目标检测方法,依赖RGB图像辅助生成伪标签,但通常采用标签级别的融合策略,即分别利用LiDAR和RGB图像生成伪标签后,再进行融合。这种方式忽略了LiDAR点云和RGB图像在数据层面的互补性,导致生成的伪标签质量不高,限制了最终检测器的性能。现有方法难以充分利用多模态信息进行高质量伪标签生成。
核心思路:论文的核心思路是在数据层面进行LiDAR和RGB图像的融合,充分利用两种模态的互补信息。具体来说,利用RGB图像的语义信息(通过视觉基础模型进行实例分割)来指导LiDAR点云的类别标注,同时利用RGB图像的深度信息来增强LiDAR点云的密度。通过数据层面的融合,可以生成更准确、更鲁棒的伪标签。
技术框架:整体框架包含以下几个主要模块:1) 视觉基础模型:用于对RGB图像进行实例分割和深度估计。2) 双向数据融合:将RGB图像的语义信息传递给LiDAR点云,并将RGB图像的深度信息投影到3D空间,增强点云密度。3) 噪声过滤:包括局部半径滤波和全局统计滤波,用于去除深度估计和分割带来的噪声。4) 动态自进化:迭代地细化伪标签,提高定位精度。整个流程旨在生成高质量的伪标签,用于训练3D目标检测器。
关键创新:论文的关键创新在于提出了数据级的LiDAR-Camera融合方法。与以往的标签级融合方法不同,该方法在数据层面就将两种模态的信息进行整合,充分利用了RGB图像的语义和深度信息来增强LiDAR点云的表示。这种数据级融合能够更有效地利用多模态信息,生成更准确、更鲁棒的伪标签。
关键设计:1) 双向融合策略:将RGB图像的分割结果反投影到3D点云,为点云赋予类别标签;同时,将RGB图像的深度信息投影到3D空间,增加点云密度。2) 局部半径滤波:用于去除深度估计误差导致的噪声点。3) 全局统计滤波:用于去除分割错误导致的异常点。4) 动态自进化策略:通过迭代地训练和伪标签生成,逐步提高伪标签的质量和检测器的性能。具体的参数设置和网络结构细节在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在nuScenes数据集上取得了显著的性能提升,mAP达到了28.4$\%$,超过了现有的最先进方法。这一结果验证了数据级融合策略的有效性,表明该方法能够生成更高质量的伪标签,从而提高3D目标检测器的性能。该方法在各个类别上的性能均有提升(具体数值未知)。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、智能安防等领域。通过利用低成本的摄像头和激光雷达,可以实现低成本、高精度的3D环境感知。该方法尤其适用于缺乏大量标注数据的场景,可以降低数据标注成本,加速3D目标检测技术的落地。未来,该方法可以进一步扩展到其他多模态传感器融合场景,例如毫米波雷达和视觉的融合。
📄 摘要(原文)
Existing LiDAR-based 3D object detectors typically rely on manually annotated labels for training to achieve good performance. However, obtaining high-quality 3D labels is time-consuming and labor-intensive. To address this issue, recent works explore unsupervised 3D object detection by introducing RGB images as an auxiliary modal to assist pseudo-box generation. However, these methods simply integrate pseudo-boxes generated by LiDAR point clouds and RGB images. Yet, such a label-level fusion strategy brings limited improvements to the quality of pseudo-boxes, as it overlooks the complementary nature in terms of LiDAR and RGB image data. To overcome the above limitations, we propose a novel data-level fusion framework that integrates RGB images and LiDAR data at an early stage. Specifically, we utilize vision foundation models for instance segmentation and depth estimation on images and introduce a bi-directional fusion method, where real points acquire category labels from the 2D space, while 2D pixels are projected onto 3D to enhance real point density. To mitigate noise from depth and segmentation estimations, we propose a local and global filtering method, which applies local radius filtering to suppress depth estimation errors and global statistical filtering to remove segmentation-induced outliers. Furthermore, we propose a data-level fusion based dynamic self-evolution strategy, which iteratively refines pseudo-boxes under a dense representation, significantly improving localization accuracy. Extensive experiments on the nuScenes dataset demonstrate that the detector trained by our method significantly outperforms that trained by previous state-of-the-art methods with 28.4$\%$ mAP on the nuScenes validation benchmark.