3DTMDet: A Dual-Path Synergy Network of Transformer and SSM for 3D Object Detection in Point Clouds
作者: Bingwen Qiu, Yuan Liu, Junqi Bai, Tong Jiang, Ben Liang, Fangzhou Chen, Xiubao Sui, Qian Chen
分类: cs.CV
发布日期: 2026-05-15
🔗 代码/项目: GITHUB
💡 一句话要点
提出3DTMDet,结合Transformer和SSM,解决点云目标检测中远距离点稀疏和上下文理解的难题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 点云目标检测 状态空间模型 Transformer 远距离目标检测 3D场景理解
📋 核心要点
- 现有点云目标检测方法在扩展感受野时,容易忽略局部几何细节,导致远距离和小目标检测性能下降。
- 3DTMDet结合SSM和Transformer,利用SSM捕获全局交互,Transformer编码局部几何结构,平衡感受野和细节保留。
- 提出的3DHMT块和体素生成块,有效提升了远距离和遮挡目标的检测性能,并在KITTI和ONCE数据集上取得了SOTA结果。
📝 摘要(中文)
本文提出了一种新的点云目标检测网络3DTMDet,该网络协同结合了状态空间模型(Mamba)和Transformer。核心思想是利用SSM在线性复杂度上的优势和长序列建模能力,有效地捕获稀疏和远距离点之间的全局交互,同时使用具有局部注意力的Transformer模块来编码局部点集中的细粒度几何结构,从而保留精确的形状信息。我们提出了3D混合Mamba Transformer(3DHMT)块,它使用SSM-Attention-SSM流水线来平衡全局上下文理解和局部细节保留,有效缓解了远距离检测中感受野扩大和几何保留之间的紧张关系。此外,我们还引入了一种受LiDAR物理启发的体素生成块,该块沿传感器观察方向扩散特征,以重建遮挡和远距离区域的完整对象结构。在KITTI和ONCE数据集上进行的大量实验表明,3DTMDet优于最先进的检测器。代码已在https://github.com/QiuBingwen/3DTMDet上发布。
🔬 方法详解
问题定义:点云目标检测面临的根本挑战在于远距离点的极度稀疏性与对远程上下文理解的需求之间的冲突。现有方法通常使用一维序列化来扩展感受野,但这不可避免地会丢弃已经稀缺的局部几何细节,从而降低对远距离和小目标的检测性能。
核心思路:本文的核心思路是协同结合状态空间模型(SSM,具体为Mamba)和Transformer。SSM擅长处理长序列,能够有效地捕获稀疏和远距离点之间的全局交互,而Transformer模块则通过局部注意力机制编码局部点集中的细粒度几何结构,从而保留精确的形状信息。这种结合旨在平衡全局上下文理解和局部细节保留。
技术框架:3DTMDet的整体架构包含以下几个主要模块:首先,通过体素化或点云采样等方式将原始点云数据进行初步处理。然后,利用提出的3D混合Mamba Transformer(3DHMT)块进行特征提取,该模块的核心是SSM-Attention-SSM流水线。此外,还引入了受LiDAR物理启发的体素生成块,用于重建遮挡和远距离区域的完整对象结构。最后,通过检测头进行目标检测和定位。
关键创新:最重要的技术创新点在于3D混合Mamba Transformer(3DHMT)块的设计,它将SSM和Transformer以一种协同的方式结合起来,既利用了SSM在长序列建模方面的优势,又保留了Transformer在局部特征提取方面的能力。与现有方法中单纯依赖Transformer或卷积神经网络不同,3DHMT块能够更好地平衡全局上下文理解和局部细节保留,从而提升远距离目标检测的性能。
关键设计:3DHMT块的关键设计在于SSM-Attention-SSM流水线。首先使用SSM进行全局上下文建模,然后使用局部注意力Transformer模块提取局部几何特征,最后再次使用SSM进行全局信息融合。体素生成块的设计灵感来源于LiDAR传感器的物理特性,通过沿传感器观察方向扩散特征来重建遮挡和远距离区域的完整对象结构。具体的参数设置和损失函数细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,3DTMDet在KITTI和ONCE数据集上均取得了优于现有SOTA检测器的性能。具体而言,在远距离目标检测方面,3DTMDet的精度提升显著,有效验证了该方法在处理稀疏点云数据方面的优势。代码已开源,方便研究人员进行复现和进一步研究。
🎯 应用场景
3DTMDet在自动驾驶、机器人导航、智能交通等领域具有广泛的应用前景。通过提高对远距离和小目标的检测精度,可以增强自动驾驶系统的感知能力,减少事故风险。此外,该方法还可以应用于三维场景重建、虚拟现实等领域,提升用户体验和应用效果。
📄 摘要(原文)
A fundamental challenge in point cloud object detection lies in the conflict between the extreme sparsity of distant points and the need for remote context understanding. The existing methods typically use 1D serialization to expand the receptive field, which inevitably discards already scarce local geometric details and reduces detection of distant and small objects. To address this issue, we propose 3DTMDet, a novel detection network that synergistically combines state space models (Mamba) with Transformers. The core idea is to utilize SSM's linear complexity and advantages in long sequence modeling to effectively capture global interactions between sparse and distant points, while using Transformer modules with local attention to encode fine-grained geometric structures in local point sets, preserving accurate shape information. We propose the 3D Hybrid Mamba Transformer (3DHMT) block, which uses an SSM-Attention-SSM pipeline to balance global context understanding and local detail preservation, effectively alleviating the tension between receptive field enlargement and geometric preservation in remote detection. In addition, we introduced a voxel generation block inspired by LiDAR physics, which diffuses features along the sensor observation direction to reconstruct the complete object structure of occlusion and distant areas. Extensive experiments conducted on the KITTI and ONCE datasets have shown that 3DTMDet outperforms state-of-the-art detectors. The code is available at https://github.com/QiuBingwen/3DTMDet.