TriBand-BEV: Real-Time LiDAR-Only 3D Pedestrian Detection via Height-Aware BEV and High-Resolution Feature Fusion

📄 arXiv: 2605.12220v1 📥 PDF

作者: Mohammad Khoshkdahan, Alexey Vinel

分类: cs.CV, cs.AI, cs.LG, cs.RO

发布日期: 2026-05-12

备注: Accepted for publication in the Proceedings of the 2026 International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2026)


💡 一句话要点

提出TriBand-BEV,通过高度感知BEV和高分辨率特征融合实现实时LiDAR行人3D检测。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D目标检测 LiDAR 鸟瞰图 行人检测 实时感知

📋 核心要点

  1. 现有3D感知方法在实时性和精度上存在挑战,尤其是在行人等弱势道路使用者(VRU)的检测方面。
  2. TriBand-BEV通过将3D LiDAR数据编码为具有三个高度带的轻量级2D BEV张量,将3D检测问题转化为2D检测,从而简化了流程。
  3. 在KITTI数据集上,TriBand-BEV在精度和速度上均优于现有方法,并在遮挡场景下表现出良好的鲁棒性。

📝 摘要(中文)

本文提出了一种新的鸟瞰图(BEV)编码方法TriBand-BEV,该方法将完整的3D LiDAR点云映射到一个轻量级的具有三个高度带的2D BEV张量中。论文将3D检测问题明确地转化为2D检测问题,然后从BEV输出中重建3D框。一个单一的网络可以一次性检测车辆、行人和自行车。骨干网络在深层阶段使用区域注意力机制,一个分层的双向颈部网络融合了P1到P4的上下文和细节信息,头部网络预测带有分布焦点学习的定向框,用于侧面偏移和旋转IoU损失。训练过程中,应用了一个小的垂直重新分箱和一个轻微的反射率抖动,以抵抗模型记忆。使用四分位距(IQR)滤波器来去除3D重建过程中的噪声和异常LiDAR点。在KITTI数据集上,TriBand-BEV在单个消费级GPU上以49 FPS的速度达到了58.7/52.6/47.2的行人BEV AP(%)(easy/moderate/hard),超过了Complex-YOLO,分别提升了+12.6%、+7.5%和+3.1%。定性场景显示了在遮挡下的稳定检测。该流程紧凑,可以用于实时机器人部署。源代码已在GitHub上公开。

🔬 方法详解

问题定义:论文旨在解决在自动驾驶和机器人应用中,快速准确地进行3D行人检测的问题。现有方法,如基于体素或点云的方法,计算复杂度高,难以满足实时性要求;而基于图像的方法则受光照和遮挡影响较大。

核心思路:论文的核心思路是将3D LiDAR点云数据转换为一种紧凑的2D BEV表示,即TriBand-BEV,从而将3D检测问题转化为更高效的2D检测问题。通过在BEV表示中显式地编码高度信息,可以更好地保留3D空间结构,提高检测精度。

技术框架:TriBand-BEV的整体框架包括以下几个主要模块:1) LiDAR点云预处理:包括点云滤波(IQR滤波器)和垂直重新分箱;2) BEV编码:将3D点云编码为具有三个高度带的2D BEV张量;3) 2D检测网络:使用一个单阶段检测器,包括骨干网络(带有区域注意力机制)、颈部网络(分层双向融合)和头部网络(预测定向框);4) 3D框重建:从2D检测结果中重建3D bounding box。

关键创新:TriBand-BEV的关键创新在于其BEV编码方式和网络结构设计。传统的BEV编码通常只使用一个高度带,而TriBand-BEV使用三个高度带,可以更精细地表示3D空间信息。此外,网络结构中使用的区域注意力机制和分层双向融合颈部网络可以有效地提取上下文信息和细节特征。

关键设计:在BEV编码中,使用了三个高度带,每个高度带对应不同的高度范围。在训练过程中,应用了小的垂直重新分箱和轻微的反射率抖动,以增强模型的鲁棒性。损失函数包括分布焦点学习用于侧面偏移和旋转IoU损失,以提高定位精度。IQR滤波器用于去除噪声点。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TriBand-BEV在KITTI数据集上取得了显著的性能提升。在行人检测任务中,相对于Complex-YOLO,在easy、moderate和hard难度下分别提升了+12.6%、+7.5%和+3.1%的BEV AP(%)。同时,该方法在单个消费级GPU上实现了49 FPS的实时推理速度,表明其具有很高的实用价值。

🎯 应用场景

TriBand-BEV适用于需要实时3D感知的自动驾驶汽车、移动机器人和智能监控系统等领域。尤其是在城市环境中,准确快速地检测行人对于保障交通安全至关重要。该方法具有计算效率高、精度高的优点,有望在资源受限的嵌入式平台上部署,实现更安全可靠的自主导航。

📄 摘要(原文)

Safe autonomous agents and mobile robots need fast real time 3D perception, especially for vulnerable road users (VRUs) such as pedestrians. We introduce a new bird's eye view (BEV) encoding, which maps the full 3D LiDAR point cloud into a light-weight 2D BEV tensor with three height bands. We explicitly reformulate 3D detection as a 2D detection problem and then reconstruct 3D boxes from the BEV outputs. A single network detects cars, pedestrians, and cyclists in one pass. The backbone uses area attention at deep stages, a hierarchical bidirectional neck over P1 to P4 fuses context and detail, and the head predicts oriented boxes with distribution focal learning for side offsets and a rotated IoU loss. Training applies a small vertical re bin and a mild reflectance jitter in channel space to resist memorization. We use an interquartile range (IQR) filter to remove noisy and outlier LiDAR points during 3D reconstruction. On KITTI dataset, TriBand-BEV attains 58.7/52.6/47.2 pedestrian BEV AP(%) for easy, moderate, and hard at 49 FPS on a single consumer GPU, surpassing Complex-YOLO, with gains of +12.6%, +7.5%, and +3.1%. Qualitative scenes show stable detection under occlusion. The pipeline is compact and ready for real time robotic deployment. Our source code is publicly available on GitHub.