MT-PCR: Hybrid Mamba-Transformer Network with Spatial Serialization for Point Cloud Registration

📄 arXiv: 2506.13183 📥 PDF

作者: Bingxi Liu, An Liu, Hao Chen, Huaqi Tao, Jinqiang Cui, Yiqun Wang, Hong Zhang

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

提出MT-PCR:混合Mamba-Transformer网络,通过空间序列化实现点云配准

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 点云配准 Mamba模型 Transformer网络 空间序列化 三维重建

📋 核心要点

  1. 现有基于Transformer的点云配准方法计算复杂度高,限制了点云分辨率,导致信息损失。
  2. MT-PCR通过Z阶空间填充曲线序列化点云特征,并结合Mamba和Transformer模块,提升配准性能。
  3. 实验表明,MT-PCR在准确性和效率上优于现有方法,并显著降低了GPU内存使用和FLOPs。

📝 摘要(中文)

点云配准(PCR)是3D计算机视觉和机器人技术中的一项基本任务。大多数基于学习的PCR方法依赖于Transformer架构,但其计算复杂度呈二次方增长。这种限制约束了可处理点云的分辨率,不可避免地导致信息丢失。相比之下,Mamba是一种最近提出的基于状态空间模型的模型,它实现了线性计算复杂度,同时保持了强大的长程上下文建模能力。然而,由于点云数据的无序性和不规则性,直接将Mamba应用于PCR任务会产生次优性能。为了应对这些挑战,我们提出了MT-PCR,这是第一个集成Mamba和Transformer模块的点云配准框架。具体来说,我们使用Z阶空间填充曲线对点云特征进行序列化,以增强空间局部性,使Mamba能够更好地建模输入的几何结构。此外,我们移除了Mamba中常用的顺序指示模块,从而提高了性能。序列化后的特征由优化的Mamba编码器处理,然后是基于Transformer的特征细化阶段。在多个基准上的大量实验表明,MT-PCR在准确性和效率方面均优于基于Transformer和其他最先进的方法,显著降低了GPU内存使用量和FLOPs。

🔬 方法详解

问题定义:点云配准旨在找到两个点云之间的变换关系,使其能够对齐。现有基于Transformer的方法在处理大规模点云时,由于其二次方级别的计算复杂度,面临着巨大的计算和内存开销,限制了输入点云的分辨率,导致关键几何信息的丢失。

核心思路:MT-PCR的核心思路是将Mamba模型引入点云配准任务,利用其线性计算复杂度的优势,处理更大规模的点云。同时,为了克服点云的无序性,论文采用Z阶空间填充曲线对点云进行序列化,使得Mamba能够更好地捕捉点云的空间局部性信息。此外,结合Transformer进行特征细化,进一步提升配准精度。

技术框架:MT-PCR的整体框架包括以下几个主要阶段:1) 空间序列化:使用Z阶空间填充曲线将无序的点云特征转换为有序的序列。2) Mamba编码器:利用优化的Mamba编码器对序列化后的特征进行编码,提取长程依赖关系。3) Transformer特征细化:使用Transformer模块对Mamba编码器的输出进行特征细化,进一步提升特征的表达能力。4) 配准估计:基于细化后的特征,估计点云之间的变换关系。

关键创新:MT-PCR的关键创新在于:1) 混合Mamba-Transformer架构:首次将Mamba模型引入点云配准任务,并与Transformer模块相结合,兼顾了效率和精度。2) 空间序列化:利用Z阶空间填充曲线对点云进行序列化,解决了Mamba模型无法直接处理无序点云的问题。3) 移除顺序指示模块:针对点云配准任务的特点,移除了Mamba中常用的顺序指示模块,进一步提升了性能。

关键设计:在Mamba编码器中,论文对Mamba的结构进行了优化,例如调整了隐藏层的大小和激活函数。在Transformer特征细化阶段,采用了多层Transformer编码器,并使用了自注意力机制来捕捉特征之间的关系。损失函数方面,采用了点到面距离和ICP损失的加权组合,以提高配准的准确性和鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MT-PCR在ModelNet40、3DMatch和3DLoMatch等基准数据集上均取得了优于现有方法的性能。例如,在3DMatch数据集上,MT-PCR的配准召回率相比于DCP提升了约5%,同时显著降低了GPU内存使用量和FLOPs,验证了MT-PCR在效率和精度方面的优势。

🎯 应用场景

MT-PCR在机器人导航、三维重建、自动驾驶、SLAM等领域具有广泛的应用前景。通过提高点云配准的效率和精度,可以提升机器人对环境的感知能力,实现更精确的定位和导航。此外,该方法还可以应用于文物保护、医学影像分析等领域,为相关研究提供更强大的技术支持。

📄 摘要(原文)

Point cloud registration (PCR) is a fundamental task in 3D computer vision and robotics. Most learning-based PCR methods rely on Transformer architectures, which suffer from quadratic computational complexity. This limitation restricts the resolution of point clouds that can be processed, inevitably leading to information loss. In contrast, Mamba, a recently proposed model based on state-space models, achieves linear computational complexity while maintaining strong long-range contextual modeling capabilities. However, directly applying Mamba to PCR tasks yields suboptimal performance due to the unordered and irregular nature of point cloud data. To address these challenges, we propose MT-PCR, the first point cloud registration framework that integrates Mamba and Transformer modules. Specifically, we serialize point cloud features using Z-order space-filling curves to enforce spatial locality, enabling Mamba to better model the geometric structure of the inputs. Additionally, we remove the order-indicator module commonly used in Mamba-based sequence modeling, leading to improved performance in our setting. The serialized features are then processed by an optimized Mamba encoder, followed by a Transformer-based feature refinement stage. Extensive experiments on multiple benchmarks demonstrate that MT-PCR outperforms Transformer-based and other state-of-the-art methods in both accuracy and efficiency, significantly reducing GPU memory usage and FLOPs.