Towards Streaming LiDAR Object Detection with Point Clouds as Egocentric Sequences
作者: Mellon M. Zhang, Glen Chou, Saibal Mukhopadhyay
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-06-07 (更新: 2025-12-31)
备注: Accepted to WACV 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出PFCF混合检测器,兼顾激光雷达流式目标检测的速度与精度。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 激光雷达 目标检测 流式处理 Mamba SSM 自动驾驶
📋 核心要点
- 现有激光雷达目标检测方法在速度和精度之间存在权衡,流式方法速度快但精度低,全扫描方法精度高但延迟大。
- PFCF结合极坐标快速处理和笛卡尔坐标精确推理,利用Mamba SSM骨干网络进行高效的极坐标特征学习,实现快速更新和高精度。
- PFCF在Waymo开放数据集上超越了现有流式方法10% mAP,并以两倍的更新速率达到了全扫描方法的精度。
📝 摘要(中文)
精确且低延迟的3D目标检测对于自动驾驶至关重要,安全依赖于快速响应和可靠感知。旋转激光雷达传感器因其鲁棒性和高保真度而被广泛采用,但目前的检测器面临权衡:流式方法实时处理部分极坐标扇区以实现快速更新,但存在可见性有限、跨扇区依赖性和改造笛卡尔设计带来的失真问题;而全扫描方法虽然精度较高,但受到激光雷达旋转固有延迟的限制。我们提出了Polar-Fast-Cartesian-Full (PFCF),一种混合检测器,它结合了快速极坐标处理进行扇区内特征提取,以及精确的笛卡尔推理进行全场景理解。PFCF的核心是基于Mamba SSM的定制流式骨干网络,具有维度分解卷积,避免了失真严重的平面,从而实现了参数高效、平移不变和抗失真的极坐标表示学习。局部扇区特征通过该骨干网络提取,然后累积到扇区特征缓冲区中,以通过全扫描骨干网络实现高效的扇区间通信。PFCF在Waymo开放数据集上建立了一个新的帕累托前沿,超过了之前的流式基线10% mAP,并以两倍的更新速率匹配了全扫描精度。
🔬 方法详解
问题定义:论文旨在解决自动驾驶中激光雷达目标检测的速度和精度之间的trade-off问题。现有的流式方法虽然速度快,但由于只处理部分扫描数据,导致可见性受限,且容易受到跨扇区依赖和笛卡尔坐标系转换带来的失真影响。全扫描方法虽然精度高,但受到激光雷达旋转一周所需时间的限制,延迟较高,无法满足自动驾驶对实时性的需求。
核心思路:论文的核心思路是结合极坐标处理的快速性和笛卡尔坐标处理的准确性,提出一种混合检测器PFCF。PFCF首先在极坐标下进行快速特征提取,然后将提取的特征转换到笛卡尔坐标系下进行精确推理,从而在保证速度的同时提高精度。此外,论文还设计了一种基于Mamba SSM的流式骨干网络,用于高效的极坐标特征学习。
技术框架:PFCF的整体架构包含以下几个主要模块:1) 极坐标特征提取:使用基于Mamba SSM的流式骨干网络从激光雷达点云的极坐标表示中提取局部扇区特征。2) 扇区特征缓冲:将提取的局部扇区特征累积到扇区特征缓冲区中,以便进行跨扇区通信。3) 全扫描特征提取:使用全扫描骨干网络从扇区特征缓冲区中提取全局特征。4) 目标检测:使用目标检测头从全局特征中预测3D目标。
关键创新:论文最重要的技术创新点在于提出了基于Mamba SSM的流式骨干网络,用于高效的极坐标特征学习。该骨干网络采用维度分解卷积,避免了失真严重的平面,从而实现了参数高效、平移不变和抗失真的极坐标表示学习。与现有方法相比,该骨干网络能够更好地处理激光雷达点云的极坐标表示,从而提高目标检测的精度和速度。
关键设计:论文的关键设计包括:1) 基于Mamba SSM的流式骨干网络结构,包括维度分解卷积的具体实现方式。2) 扇区特征缓冲区的组织方式,以及如何进行跨扇区通信。3) 损失函数的设计,包括目标检测损失和辅助损失。
🖼️ 关键图片
📊 实验亮点
PFCF在Waymo开放数据集上取得了显著的性能提升。与之前的流式基线相比,PFCF的mAP提高了10%。更重要的是,PFCF以两倍的更新速率达到了全扫描方法的精度,这意味着PFCF在保证精度的同时,显著提高了检测速度,更符合自动驾驶对实时性的要求。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、智能交通等领域。通过提高激光雷达目标检测的速度和精度,可以增强自动驾驶系统的感知能力,提高行驶安全性。此外,该方法还可以应用于其他需要实时3D目标检测的场景,例如工业自动化、安防监控等。
📄 摘要(原文)
Accurate and low-latency 3D object detection is essential for autonomous driving, where safety hinges on both rapid response and reliable perception. While rotating LiDAR sensors are widely adopted for their robustness and fidelity, current detectors face a trade-off: streaming methods process partial polar sectors on the fly for fast updates but suffer from limited visibility, cross-sector dependencies, and distortions from retrofitted Cartesian designs, whereas full-scan methods achieve higher accuracy but are bottlenecked by the inherent latency of a LiDAR revolution. We propose Polar-Fast-Cartesian-Full (PFCF), a hybrid detector that combines fast polar processing for intra-sector feature extraction with accurate Cartesian reasoning for full-scene understanding. Central to PFCF is a custom Mamba SSM-based streaming backbone with dimensionally-decomposed convolutions that avoids distortion-heavy planes, enabling parameter-efficient, translation-invariant, and distortion-robust polar representation learning. Local sector features are extracted via this backbone, then accumulated into a sector feature buffer to enable efficient inter-sector communication through a full-scan backbone. PFCF establishes a new Pareto frontier on the Waymo Open dataset, surpassing prior streaming baselines by 10% mAP and matching full-scan accuracy at twice the update rate. Code is available at \href{https://github.com/meilongzhang/Polar-Hierarchical-Mamba}{https://github.com/meilongzhang/Polar-Hierarchical-Mamba}.