Multi-Scale Neighborhood Occupancy Masked Autoencoder for Self-Supervised Learning in LiDAR Point Clouds
作者: Mohamed Abdelsamad, Michael Ulrich, Claudius Gläser, Abhinav Valada
分类: cs.CV, cs.AI, cs.RO
发布日期: 2025-02-27
💡 一句话要点
提出多尺度邻域占据掩码自编码器(NOMAE),用于LiDAR点云自监督学习。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 点云 自监督学习 掩码自编码器 LiDAR 三维重建
📋 核心要点
- 现有MAE方法在LiDAR点云自监督学习中,由于点云稀疏性导致信息泄露和计算复杂度高。
- NOMAE的核心思想是在非掩码体素的邻域内进行掩码占据重建,避免信息泄露并降低计算量。
- 实验表明,NOMAE在nuScenes和Waymo Open数据集上,语义分割和3D目标检测任务中均取得了领先性能。
📝 摘要(中文)
掩码自编码器(MAE)在视觉及其他领域的自监督学习(SSL)中展现出巨大潜力。然而,自动驾驶中使用的LiDAR点云对于MAE来说极具挑战性,因为3D空间中存在大量空区域。因此,现有方法存在占据信息泄露到解码器中的问题,并且计算复杂度很高,从而限制了SSL预训练在实践中只能使用2D鸟瞰图编码器。本文提出了一种新颖的邻域占据MAE(NOMAE),通过仅在非掩码体素的邻域中进行掩码占据重建,克服了上述挑战。我们结合了体素掩码和多尺度占据重建,并提出了分层掩码生成技术,以捕获点云中不同大小物体的特征。NOMAE非常灵活,可以直接用于现有3D架构中的SSL。我们在nuScenes和Waymo Open数据集上进行了广泛的评估,用于语义分割和3D目标检测的下游感知任务,并与判别式和生成式SSL方法进行了比较。结果表明,NOMAE在多个点云感知任务的多个基准测试中,均达到了新的state-of-the-art。
🔬 方法详解
问题定义:现有基于掩码自编码器(MAE)的点云自监督学习方法,在处理LiDAR点云时面临挑战。LiDAR点云数据具有高度稀疏性,导致大量空白区域。直接应用MAE会导致解码器泄露占据信息,并且计算复杂度高,限制了其在3D点云上的应用,通常只能在2D鸟瞰图上进行预训练。
核心思路:NOMAE的核心思路是仅在非掩码体素的邻域内进行掩码占据重建。这意味着模型只需要预测被掩码体素周围的体素是否被占据,而不是预测整个点云空间的占据情况。这种方法有效地避免了信息泄露,并显著降低了计算复杂度。同时,通过多尺度邻域的建模,可以学习到不同大小物体的特征表示。
技术框架:NOMAE的整体框架包括以下几个主要模块:1) 体素化:将原始点云转换为体素表示。2) 分层掩码生成:生成多尺度的掩码,用于掩盖部分体素。3) 编码器:使用3D卷积神经网络对掩码后的体素进行编码,提取特征。4) 解码器:使用3D卷积神经网络对编码后的特征进行解码,并预测被掩码体素邻域的占据情况。5) 损失函数:计算预测的占据情况与真实占据情况之间的差异,作为训练的损失。
关键创新:NOMAE的关键创新在于邻域占据重建和多尺度掩码生成。邻域占据重建避免了信息泄露,降低了计算复杂度。多尺度掩码生成使得模型能够学习到不同大小物体的特征表示,从而提高了模型的泛化能力。与现有方法相比,NOMAE能够直接在3D点云上进行自监督学习,而不需要降维到2D鸟瞰图。
关键设计:NOMAE的关键设计包括:1) 掩码比例:论文中使用了较高的掩码比例,以增加自监督学习的难度。2) 邻域大小:邻域大小的选择需要根据具体的数据集和任务进行调整。3) 损失函数:论文中使用二元交叉熵损失函数来衡量预测的占据情况与真实占据情况之间的差异。4) 网络结构:编码器和解码器均采用3D卷积神经网络,具体结构可以根据不同的backbone进行调整。
🖼️ 关键图片
📊 实验亮点
NOMAE在nuScenes和Waymo Open数据集上进行了广泛的实验评估。在3D目标检测任务中,NOMAE在nuScenes数据集上取得了state-of-the-art的性能,相比于之前的自监督学习方法,性能提升显著。在语义分割任务中,NOMAE也取得了具有竞争力的结果,证明了其在点云感知任务中的有效性。
🎯 应用场景
NOMAE在自动驾驶领域具有广泛的应用前景,可以用于提高3D目标检测、语义分割等感知任务的性能。通过在大量无标注点云数据上进行自监督预训练,NOMAE可以学习到鲁棒的点云特征表示,从而减少对标注数据的依赖,降低标注成本。此外,NOMAE还可以应用于机器人导航、三维重建等领域。
📄 摘要(原文)
Masked autoencoders (MAE) have shown tremendous potential for self-supervised learning (SSL) in vision and beyond. However, point clouds from LiDARs used in automated driving are particularly challenging for MAEs since large areas of the 3D volume are empty. Consequently, existing work suffers from leaking occupancy information into the decoder and has significant computational complexity, thereby limiting the SSL pre-training to only 2D bird's eye view encoders in practice. In this work, we propose the novel neighborhood occupancy MAE (NOMAE) that overcomes the aforementioned challenges by employing masked occupancy reconstruction only in the neighborhood of non-masked voxels. We incorporate voxel masking and occupancy reconstruction at multiple scales with our proposed hierarchical mask generation technique to capture features of objects of different sizes in the point cloud. NOMAEs are extremely flexible and can be directly employed for SSL in existing 3D architectures. We perform extensive evaluations on the nuScenes and Waymo Open datasets for the downstream perception tasks of semantic segmentation and 3D object detection, comparing with both discriminative and generative SSL methods. The results demonstrate that NOMAE sets the new state-of-the-art on multiple benchmarks for multiple point cloud perception tasks.