Rethinking the Encoding and Annotating of 3D Bounding Box: Corner-Aware 3D Object Detection from Point Clouds
作者: Qinghao Meng, Junbo Yin, Jianbing Shen, Yunde Jia
分类: cs.CV
发布日期: 2025-11-18
备注: 8 pages, 5 figures, 2 tables
💡 一句话要点
提出角点对齐回归的3D目标检测方法,解决中心对齐回归在LiDAR点云中的不稳定性问题
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 3D目标检测 点云 角点对齐回归 弱监督学习 LiDAR 自动驾驶 KITTI数据集
📋 核心要点
- 现有基于LiDAR的3D目标检测方法依赖中心对齐回归,但由于点云分布不均,目标中心常位于稀疏区域,导致预测不稳定。
- 论文提出角点对齐回归,将预测目标从中心转移到几何信息丰富的角点,利用角点间的几何约束和2D框信息,实现更精确的预测。
- 实验表明,该方法在KITTI数据集上优于中心对齐基线3.5% AP,并能通过角点标注实现接近全监督的性能,验证了其有效性。
📝 摘要(中文)
本文针对LiDAR点云3D目标检测中,中心对齐回归方法因LiDAR点云前表面偏置特性导致目标中心常位于稀疏或空区域,进而造成边界框预测不稳定和不准确的问题,重新审视了边界框表示方法,并提出了角点对齐回归。该方法将预测目标从不稳定的中心转移到几何信息丰富的角点,这些角点位于密集的、可观测的区域。利用角点和图像2D框之间的内在几何约束,可以从角点标注中恢复3D边界框的部分参数,从而实现一种无需完整3D标签的弱监督范式。我们设计了一个简单而有效的角点感知检测头,可以插入到现有的检测器中。在KITTI数据集上的实验表明,我们的方法比基于中心的基线提高了3.5%的AP,并且仅使用BEV角点点击即可达到完全监督精度的83%,证明了我们的角点感知回归策略的有效性。
🔬 方法详解
问题定义:现有基于LiDAR点云的3D目标检测方法,大多采用中心对齐回归策略。然而,由于LiDAR点云具有前表面偏置的特性,导致目标的中心点经常位于点云稀疏或空洞的区域,这使得中心点的回归变得困难且不稳定,最终影响3D bounding box的预测精度。
核心思路:论文的核心思路是将3D bounding box的回归目标从不稳定的中心点转移到几何信息更丰富的角点上。角点通常位于物体表面的边缘,这些区域的点云密度相对较高,更易于观测和定位。通过预测角点的位置,并利用角点之间的几何约束关系,可以更准确地推断出3D bounding box的完整信息。
技术框架:该方法可以作为一个独立的检测头,嵌入到现有的3D目标检测框架中。整体流程包括:首先,利用现有的点云特征提取网络提取点云特征;然后,将提取的特征输入到角点感知的检测头中,该检测头负责预测3D bounding box的角点位置;最后,利用角点之间的几何约束关系,以及可选的2D图像信息,对预测的角点位置进行优化,得到最终的3D bounding box。
关键创新:该论文的关键创新在于提出了角点对齐回归这一概念,并将其应用于3D目标检测中。与传统的中心对齐回归方法相比,角点对齐回归能够更好地利用点云的几何信息,从而提高3D bounding box的预测精度。此外,该方法还提出了一种弱监督学习范式,通过角点标注和2D图像信息,可以实现接近全监督的性能。
关键设计:角点感知的检测头是该方法的核心组成部分。该检测头通常由多个卷积层和全连接层组成,用于预测每个角点的坐标和置信度。损失函数的设计也至关重要,通常包括角点位置的回归损失和置信度的分类损失。此外,还可以引入角点之间的几何约束损失,以进一步提高预测精度。在弱监督学习中,可以利用2D图像信息,例如2D bounding box的角点位置,来约束3D角点的预测。
📊 实验亮点
实验结果表明,该方法在KITTI数据集上取得了显著的性能提升。与基于中心的基线方法相比,该方法在3D目标检测的平均精度(AP)上提高了3.5%。更重要的是,在仅使用BEV角点点击作为标注的情况下,该方法能够达到完全监督精度(使用完整3D bounding box标注)的83%,充分证明了角点对齐回归的有效性和弱监督学习的潜力。
🎯 应用场景
该研究成果可广泛应用于自动驾驶、机器人导航、智能安防等领域。通过提高3D目标检测的精度和鲁棒性,可以提升自动驾驶车辆对周围环境的感知能力,减少事故发生的概率。此外,该方法在弱监督学习方面的潜力,可以降低对大量3D标注数据的依赖,从而降低模型训练的成本。
📄 摘要(原文)
Center-aligned regression remains dominant in LiDAR-based 3D object detection, yet it suffers from fundamental instability: object centers often fall in sparse or empty regions of the bird's-eye-view (BEV) due to the front-surface-biased nature of LiDAR point clouds, leading to noisy and inaccurate bounding box predictions. To circumvent this limitation, we revisit bounding box representation and propose corner-aligned regression, which shifts the prediction target from unstable centers to geometrically informative corners that reside in dense, observable regions. Leveraging the inherent geometric constraints among corners and image 2D boxes, partial parameters of 3D bounding boxes can be recovered from corner annotations, enabling a weakly supervised paradigm without requiring complete 3D labels. We design a simple yet effective corner-aware detection head that can be plugged into existing detectors. Experiments on KITTI show our method improves performance by 3.5% AP over center-based baseline, and achieves 83% of fully supervised accuracy using only BEV corner clicks, demonstrating the effectiveness of our corner-aware regression strategy.