ZigzagPointMamba: Spatial-Semantic Mamba for Point Cloud Understanding

📄 arXiv: 2505.21381v6 📥 PDF

作者: Linshuang Diao, Sensen Song, Yurong Qian, Dayong Ren

分类: cs.CV

发布日期: 2025-05-27 (更新: 2025-10-25)


💡 一句话要点

ZigzagPointMamba:通过空间-语义Mamba网络提升点云理解能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 点云理解 状态空间模型 Mamba 自监督学习 空间连续性 语义建模 Zigzag扫描 语义掩码

📋 核心要点

  1. 现有PointMamba方法依赖复杂token排序和随机掩码,破坏了点云的空间连续性和局部语义相关性,限制了性能。
  2. ZigzagPointMamba采用zigzag扫描路径增强空间连续性,并设计语义-孪生掩码策略(SMS)促进语义建模。
  3. 实验结果表明,该方法在零件分割和物体分类等下游任务上取得了显著的性能提升,验证了其有效性。

📝 摘要(中文)

本文提出ZigzagPointMamba,旨在解决现有基于PointMamba的点云自监督学习方法中,因复杂的token排序和随机掩码导致的 spatial 连续性和局部语义相关性破坏问题。核心思想是采用简单的 zigzag 扫描路径对点云token进行全局排序,增强空间连续性,并提出语义-孪生掩码策略(SMS),通过掩盖语义相似的token,促进利用原始和相似token的局部特征进行重建,从而克服对孤立局部特征的依赖,实现鲁棒的全局语义建模。实验表明,预训练的ZigzagPointMamba权重显著提升下游任务性能,在ShapeNetPart零件分割上 mIoU 提升 1.59%,在 ModelNet40 分类上准确率提升 0.4%,在 ScanObjectNN 的 OBJ-BG、OBJ-ONLY 和 PB-T50-RS 子集上分类准确率分别提升 0.19%、1.22% 和 0.72%。

🔬 方法详解

问题定义:现有基于PointMamba的点云处理方法,为了利用State Space Models的线性复杂度优势,通常需要对点云进行token排序。然而,已有的排序方法(例如空间填充曲线)较为复杂,并且常用的随机掩码策略会破坏点云固有的空间连续性和局部语义相关性,导致模型难以学习到有效的点云表示。

核心思路:本文的核心思路是通过设计一种更简单有效的token排序方式(zigzag扫描)来保持空间连续性,并提出一种新的掩码策略(语义-孪生掩码)来增强局部语义建模能力。zigzag扫描保证了空间相邻的点在序列中也尽可能相邻,而语义-孪生掩码则通过掩盖语义相似的token,迫使模型利用周围的语义信息进行重建,从而学习到更鲁棒的特征表示。

技术框架:ZigzagPointMamba的整体框架基于PointMamba,主要包括三个阶段:1) 点云预处理:将点云数据转换为模型可接受的输入格式。2) 特征提取:使用改进的Mamba模块(包含zigzag扫描和语义-孪生掩码)提取点云特征。3) 下游任务:将提取的特征应用于各种下游任务,如零件分割和物体分类。

关键创新:该论文的关键创新在于提出了zigzag扫描路径和语义-孪生掩码策略。zigzag扫描是一种简单有效的token排序方式,能够更好地保持点云的空间连续性。语义-孪生掩码策略则是一种新颖的掩码方法,能够增强局部语义建模能力,克服了传统随机掩码的缺点。与现有方法相比,ZigzagPointMamba在保持计算效率的同时,能够更好地利用点云的空间和语义信息。

关键设计:zigzag扫描的具体实现方式是按照zigzag的路径遍历点云,并将遍历到的点作为序列中的token。语义-孪生掩码策略首先计算点云中每个点的语义相似度,然后随机选择一些点作为锚点,并掩盖与这些锚点语义相似的点。语义相似度的计算可以使用余弦相似度或其他相似度度量方法。损失函数通常包括重建损失和对比学习损失,用于指导模型学习有效的点云表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ZigzagPointMamba在多个点云理解任务上取得了显著的性能提升。在ShapeNetPart零件分割任务上,mIoU提升了1.59%。在ModelNet40物体分类任务上,准确率提升了0.4%。在ScanObjectNN数据集上,OBJ-BG、OBJ-ONLY和PB-T50-RS子集的分类准确率分别提升了0.19%、1.22%和0.72%。这些结果表明,ZigzagPointMamba能够有效地利用点云的空间和语义信息,从而提高点云理解的性能。

🎯 应用场景

ZigzagPointMamba在三维场景理解领域具有广泛的应用前景,例如自动驾驶中的环境感知、机器人导航中的场景理解、以及工业检测中的零件识别等。通过提升点云数据的理解能力,可以提高相关系统的性能和鲁棒性,从而实现更安全、更高效的应用。未来,该方法可以进一步扩展到其他三维数据处理任务中,例如三维重建和三维目标检测。

📄 摘要(原文)

State Space models (SSMs) such as PointMamba enable efficient feature extraction for point cloud self-supervised learning with linear complexity, outperforming Transformers in computational efficiency. However, existing PointMamba-based methods depend on complex token ordering and random masking, which disrupt spatial continuity and local semantic correlations. We propose ZigzagPointMamba to tackle these challenges. The core of our approach is a simple zigzag scan path that globally sequences point cloud tokens, enhancing spatial continuity by preserving the proximity of spatially adjacent point tokens. Nevertheless, random masking undermines local semantic modeling in self-supervised learning. To address this, we introduce a Semantic-Siamese Masking Strategy (SMS), which masks semantically similar tokens to facilitate reconstruction by integrating local features of original and similar tokens. This overcomes the dependence on isolated local features and enables robust global semantic modeling. Our pre-trained ZigzagPointMamba weights significantly improve downstream tasks, achieving a 1.59% mIoU gain on ShapeNetPart for part segmentation, a 0.4% higher accuracy on ModelNet40 for classification, and 0.19%, 1.22%, and 0.72% higher accuracies respectively for the classification tasks on the OBJ-BG, OBJ-ONLY, and PB-T50-RS subsets of ScanObjectNN.