PCP-MAE: Learning to Predict Centers for Point Masked Autoencoders

📄 arXiv: 2408.08753v2 📥 PDF

作者: Xiangdong Zhang, Shaofeng Zhang, Junchi Yan

分类: cs.CV

发布日期: 2024-08-16 (更新: 2024-10-24)

🔗 代码/项目: GITHUB


💡 一句话要点

PCP-MAE:通过预测中心点学习点云掩码自编码器的语义表征

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 点云自监督学习 掩码自编码器 中心点预测 三维物体识别 语义表征

📋 核心要点

  1. 现有基于掩码自编码器的点云自监督学习方法,编码器学习到的表征可能并非语义相关的,因为解码器仅依赖于块中心即可完成重建。
  2. PCP-MAE的核心思想是让模型学习预测重要的中心点,并用预测的中心点代替直接提供的中心点,从而迫使编码器学习更有意义的语义表征。
  3. 实验结果表明,PCP-MAE在ScanObjectNN数据集上进行3D对象分类时,显著优于Point-MAE,在多个benchmark上取得了5%以上的性能提升。

📝 摘要(中文)

掩码自编码器已被广泛应用于点云自监督学习中,其通常将点云划分为可见部分和掩码部分。这些方法通常包含一个编码器,该编码器接受可见块(归一化)和相应的块中心(位置)作为输入,解码器接受编码器的输出和掩码部分的中心(位置)以重建掩码块中的每个点。然后,预训练的编码器被用于下游任务。本文通过实验发现,直接将掩码块的中心输入到解码器,即使没有来自编码器的信息,仍然可以很好地重建。换句话说,块的中心很重要,重建目标不一定依赖于编码器的表示,从而阻止了编码器学习语义表示。基于这一关键观察,我们提出了一种简单而有效的方法,即学习预测点掩码自编码器的中心(PCP-MAE),该方法引导模型学习预测重要的中心,并使用预测的中心来代替直接提供的中心。具体来说,我们提出了一个预测中心模块(PCM),该模块与原始编码器共享参数,并通过额外的交叉注意力来预测中心。与其他方法相比,我们的方法具有更高的预训练效率,并且在Point-MAE上取得了很大的改进,特别是在ScanObjectNN数据集上进行3D对象分类时,在OBJ-BG上超过了5.50%,在OBJ-ONLY上超过了6.03%,在PB-T50-RS上超过了5.17%。代码可在https://github.com/aHapBean/PCP-MAE上找到。

🔬 方法详解

问题定义:现有基于掩码自编码器的点云自监督学习方法,其编码器学习到的表征可能并非真正具有语义信息。解码器仅依赖于掩码块的中心位置信息,就能较好地完成点云重建任务,这使得编码器无法有效学习到点云的语义表征,阻碍了模型在下游任务中的性能。

核心思路:论文的核心思路是,通过让模型学习预测掩码块的中心点,迫使编码器学习更有意义的语义表征。如果模型能够准确预测中心点,则说明编码器已经学习到了足够的信息来推断点云的结构和内容。通过这种方式,可以避免解码器仅仅依赖于给定的中心点位置信息进行重建。

技术框架:PCP-MAE的整体框架包括一个编码器、一个预测中心模块(PCM)和一个解码器。编码器接收可见点云块作为输入,PCM与编码器共享参数,并通过交叉注意力机制预测掩码块的中心点。解码器接收编码器的输出和PCM预测的中心点,用于重建原始点云。

关键创新:PCP-MAE的关键创新在于引入了预测中心模块(PCM),该模块通过与编码器共享参数并使用交叉注意力机制,学习预测掩码块的中心点。这与以往直接将中心点作为解码器输入的方法不同,迫使编码器学习更有意义的语义表征,从而提升了模型的性能。

关键设计:PCM与编码器共享参数,以减少模型参数量并提高训练效率。PCM使用交叉注意力机制,将编码器的输出与掩码块的初始中心点进行融合,从而预测更准确的中心点。损失函数包括重建损失和中心点预测损失,共同优化模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PCP-MAE在ScanObjectNN数据集上进行了3D对象分类实验,结果表明,PCP-MAE显著优于Point-MAE。具体来说,在OBJ-BG上,PCP-MAE的性能提升了5.50%;在OBJ-ONLY上,性能提升了6.03%;在PB-T50-RS上,性能提升了5.17%。这些结果表明,PCP-MAE能够有效学习点云的语义表征,并提高模型的性能。

🎯 应用场景

PCP-MAE在点云自监督学习领域具有广泛的应用前景,可以应用于三维物体识别、场景理解、机器人导航等领域。通过预训练得到的编码器可以作为特征提取器,用于各种下游任务,提高模型的性能和泛化能力。该方法还可以应用于其他类型的自监督学习任务,例如图像和视频。

📄 摘要(原文)

Masked autoencoder has been widely explored in point cloud self-supervised learning, whereby the point cloud is generally divided into visible and masked parts. These methods typically include an encoder accepting visible patches (normalized) and corresponding patch centers (position) as input, with the decoder accepting the output of the encoder and the centers (position) of the masked parts to reconstruct each point in the masked patches. Then, the pre-trained encoders are used for downstream tasks. In this paper, we show a motivating empirical result that when directly feeding the centers of masked patches to the decoder without information from the encoder, it still reconstructs well. In other words, the centers of patches are important and the reconstruction objective does not necessarily rely on representations of the encoder, thus preventing the encoder from learning semantic representations. Based on this key observation, we propose a simple yet effective method, i.e., learning to Predict Centers for Point Masked AutoEncoders (PCP-MAE) which guides the model to learn to predict the significant centers and use the predicted centers to replace the directly provided centers. Specifically, we propose a Predicting Center Module (PCM) that shares parameters with the original encoder with extra cross-attention to predict centers. Our method is of high pre-training efficiency compared to other alternatives and achieves great improvement over Point-MAE, particularly surpassing it by 5.50% on OBJ-BG, 6.03% on OBJ-ONLY, and 5.17% on PB-T50-RS for 3D object classification on the ScanObjectNN dataset. The code is available at https://github.com/aHapBean/PCP-MAE.