LCM: Locally Constrained Compact Point Cloud Model for Masked Point Modeling

📄 arXiv: 2405.17149v2 📥 PDF

作者: Yaohua Zha, Naiqi Li, Yanzi Wang, Tao Dai, Hang Guo, Bin Chen, Zhi Wang, Zhihao Ouyang, Shu-Tao Xia

分类: cs.CV

发布日期: 2024-05-27 (更新: 2024-10-28)

备注: Accepted to NeurIPS 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出局部约束紧凑点云模型(LCM),提升Masked Point Modeling的效率与性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 点云处理 Masked Point Modeling 局部约束 Mamba 自监督学习 三维物体识别 点云重建

📋 核心要点

  1. Transformer在点云MPM中计算复杂度高,限制了解码器性能和实际应用。
  2. 提出局部约束紧凑点云模型(LCM),包含局部约束编码器和Mamba解码器,降低计算复杂度。
  3. 实验表明,LCM在ScanObjectNN上精度提升显著,同时大幅降低了参数量和计算量。

📝 摘要(中文)

本文提出了一种局部约束紧凑点云模型(LCM),旨在解决基于Masked Point Modeling (MPM)的预训练点云模型中Transformer计算复杂度高、解码器受限的问题。通过分析现有基于Transformer的MPM,强调了冗余减少对于点云分析的重要性。LCM由局部约束紧凑编码器和基于局部约束Mamba的解码器组成。编码器使用局部聚合层替代自注意力,平衡性能和效率。解码器针对MPM中掩码和非掩码patch信息密度差异,采用基于局部约束Mamba的解码器,确保线性复杂度,并最大化从高信息密度的非掩码patch中感知点云几何信息。实验结果表明,LCM在性能和效率上显著优于现有基于Transformer的模型。基于LCM的Point-MAE模型在ScanObjectNN的三个变体上,平均精度提升了1.84%、0.67%和0.60%,同时参数量减少了88%,计算量减少了73%。

🔬 方法详解

问题定义:现有基于Transformer的Masked Point Modeling方法在点云处理中面临计算复杂度高的问题,特别是自注意力机制导致了二次复杂度,限制了模型在实际应用中的效率和可扩展性。此外,解码器的设计也存在局限,难以充分利用点云的几何信息。

核心思路:论文的核心思路是通过局部约束来降低计算复杂度,并设计一个紧凑的模型结构。具体来说,编码器采用局部聚合层替代全局自注意力,减少计算量。解码器则利用Mamba架构,在保持线性复杂度的同时,更好地感知点云的局部几何信息,特别是从非掩码区域提取信息。

技术框架:LCM模型主要由两部分组成:局部约束紧凑编码器和局部约束Mamba解码器。编码器负责将原始点云数据转换为低维特征表示,通过局部聚合操作提取局部特征。解码器则基于编码器的输出,结合掩码信息,重建原始点云数据。整个框架采用Masked Point Modeling的预训练范式。

关键创新:论文的关键创新在于提出了局部约束的思想,并将其应用于编码器和解码器的设计中。使用局部聚合层替代全局自注意力,显著降低了计算复杂度。同时,引入Mamba架构作为解码器,在保持线性复杂度的前提下,提升了模型对点云几何信息的感知能力。这种局部约束和Mamba结合的方式,是与现有方法的本质区别。

关键设计:编码器中的局部聚合层采用k近邻搜索来确定局部邻域,然后对邻域内的点进行特征聚合。Mamba解码器则利用其选择性状态空间模型,动态地调整对不同区域的关注程度,从而更好地利用非掩码区域的信息。损失函数采用点云重建误差,通过最小化重建误差来训练模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LCM模型在ScanObjectNN数据集上取得了显著的性能提升。与基于Transformer的Point-MAE模型相比,LCM在ScanObjectNN的三个变体上,平均精度分别提升了1.84%、0.67%和0.60%,同时参数量减少了88%,计算量减少了73%。这些数据表明,LCM在保持甚至提升性能的同时,显著降低了计算成本。

🎯 应用场景

该研究成果可应用于三维物体识别、场景理解、自动驾驶等领域。通过提升点云处理的效率和精度,可以改善机器人对环境的感知能力,提高自动驾驶系统的安全性,并为虚拟现实和增强现实应用提供更逼真的三维模型。

📄 摘要(原文)

The pre-trained point cloud model based on Masked Point Modeling (MPM) has exhibited substantial improvements across various tasks. However, these models heavily rely on the Transformer, leading to quadratic complexity and limited decoder, hindering their practice application. To address this limitation, we first conduct a comprehensive analysis of existing Transformer-based MPM, emphasizing the idea that redundancy reduction is crucial for point cloud analysis. To this end, we propose a Locally constrained Compact point cloud Model (LCM) consisting of a locally constrained compact encoder and a locally constrained Mamba-based decoder. Our encoder replaces self-attention with our local aggregation layers to achieve an elegant balance between performance and efficiency. Considering the varying information density between masked and unmasked patches in the decoder inputs of MPM, we introduce a locally constrained Mamba-based decoder. This decoder ensures linear complexity while maximizing the perception of point cloud geometry information from unmasked patches with higher information density. Extensive experimental results show that our compact model significantly surpasses existing Transformer-based models in both performance and efficiency, especially our LCM-based Point-MAE model, compared to the Transformer-based model, achieved an improvement of 1.84%, 0.67%, and 0.60% in average accuracy on the three variants of ScanObjectNN while reducing parameters by 88% and computation by 73%. Code is available at https://github.com/zyh16143998882/LCM.