PointTransformerX:Portable and Efficient 3D Point Cloud Processing without Sparse Algorithms

📄 arXiv: 2604.24169v1 📥 PDF

作者: Laurenz Reichardt, Nikolas Ebert, Oliver Wasenmüller

分类: cs.CV

发布日期: 2026-04-27

备注: This paper has been accepted at IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2026


💡 一句话要点

PointTransformerX:无需稀疏算法的高效便携式3D点云处理

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 3D点云处理 Transformer 自注意力机制 位置编码 可移植性 高效推理 PyTorch

📋 核心要点

  1. 现有3D点云处理依赖CUDA算子,限制了在不同硬件平台上的可移植性和效率。
  2. PointTransformerX (PTX) 提出了一种完全基于PyTorch的Transformer骨干网络,无需CUDA算子。
  3. PTX在ScanNet数据集上实现了接近PointTransformer V3的精度,参数量减少79.2%,速度提升1.6倍。

📝 摘要(中文)

3D点云感知仍然与用于空间操作的自定义CUDA算子紧密耦合,限制了在非NVIDIA、AMD和嵌入式硬件上的可移植性和效率。我们提出了PointTransformerX (PTX),一个完全基于PyTorch原生的3D点云视觉Transformer骨干网络,消除了所有自定义CUDA算子和外部库,同时保持了具有竞争力的精度。PTX引入了3D-GS-RoPE,一种旋转位置嵌入,它直接在自注意力中编码3D空间关系,而无需邻域构建,并进一步用线性投影代替了稀疏卷积patch嵌入。PTX探索了推理时注意力窗口的缩放,以提高精度而无需重新训练。通过重新设计的feed-forward网络,PTX在ScanNet上实现了PointTransformer V3 98.7%的精度,同时减少了79.2%的参数,执行速度提高了1.6倍,并且仅需要253 MB内存。PTX可在NVIDIA GPU、AMD GPU (ROCm)和CPU上原生运行,为点云感知提供了一个高效且可移植的基础。

🔬 方法详解

问题定义:现有3D点云处理方法严重依赖于CUDA自定义算子进行空间操作,这导致了算法在非NVIDIA GPU、AMD GPU以及嵌入式设备上的可移植性和效率低下。现有方法难以兼顾精度、效率和跨平台部署能力。

核心思路:PointTransformerX的核心思路是设计一个完全基于PyTorch原生的Transformer骨干网络,避免使用任何自定义CUDA算子和外部库。通过创新的3D-GS-RoPE位置编码和线性投影patch嵌入,在保证精度的前提下,显著提升模型的效率和可移植性。

技术框架:PTX的整体框架是一个标准的Transformer结构,主要包括以下几个模块:输入点云的线性投影嵌入层,用于提取局部特征;多层Transformer Encoder,利用自注意力机制进行全局信息交互;以及一个重新设计的Feed-Forward Network,用于特征的非线性变换。关键在于使用3D-GS-RoPE替换了传统的邻域构建和稀疏卷积操作。

关键创新:PTX最重要的创新点在于以下两个方面:一是提出了3D-GS-RoPE(3D Gaussian Spherical Rotary Positional Embedding),这是一种新的旋转位置编码方法,可以直接在自注意力机制中编码3D空间关系,避免了复杂的邻域构建过程。二是使用线性投影代替了稀疏卷积patch嵌入,进一步提高了模型的效率。

关键设计:3D-GS-RoPE的具体实现方式是,首先将3D坐标映射到高斯球面上,然后使用旋转矩阵对球面坐标进行编码。线性投影patch嵌入使用一个简单的线性层将输入点云的坐标映射到高维特征空间。此外,PTX还探索了推理时注意力窗口的缩放策略,以在不重新训练的情况下提高模型的精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PointTransformerX在ScanNet数据集上取得了显著的成果。在保持接近PointTransformer V3 (98.7%) 的精度的同时,PTX将参数量减少了79.2%,推理速度提高了1.6倍,并且仅需253MB内存。此外,PTX能够在NVIDIA GPU、AMD GPU (ROCm) 和 CPU 上原生运行,展示了其卓越的可移植性。

🎯 应用场景

PointTransformerX具有广泛的应用前景,包括自动驾驶、机器人导航、三维场景理解、增强现实等领域。其高效性和可移植性使其能够部署在资源受限的边缘设备上,例如移动机器人和嵌入式系统,从而实现实时的3D感知能力。该研究为开发更通用、更高效的3D点云处理算法奠定了基础。

📄 摘要(原文)

3D point cloud perception remains tightly coupled to custom CUDA operators for spatial operations, limiting portability and efficiency on non-NVIDIA, AMD, and embedded hardware. We introduce PointTransformerX (PTX), a fully PyTorch-native vision transformer backbone for 3D point clouds, removing all custom CUDA operators and external libraries while retaining competitive accuracy. PTX introduces 3D-GS-RoPE, a rotary positional embedding that encodes 3D spatial relationships directly in self-attention without neighborhood construction, and further replaces sparse convolutional patch embedding with a linear projection. PTX explores inference-time scaling of attention windows to improve accuracy without retraining. With a redesigned feed-forward network, PTX achieves 98.7\% of PointTransformer V3's accuracy on ScanNet with 79.2\% fewer parameters and executing 1.6\times faster while requiring just 253 MB memory. PTX runs natively on NVIDIA GPUs, AMD GPUs (ROCm), and CPUs, providing an efficient and portable foundation for point cloud perception.