LXLv2: Enhanced LiDAR Excluded Lean 3D Object Detection with Fusion of 4D Radar and Camera
作者: Weiyi Xiong, Zean Zou, Qiuchi Zhao, Fengchun He, Bing Zhu
分类: cs.CV
发布日期: 2025-02-20
备注: Accepted by IEEE Robotics and Automation Letters
💡 一句话要点
提出LXLv2以解决LiDAR排除的3D目标检测问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D目标检测 雷达-相机融合 深度学习 特征融合 自动驾驶
📋 核心要点
- 现有方法在深度预测的准确性和一致性方面存在不足,且LXL的拼接式融合影响了模型的鲁棒性。
- LXLv2通过引入基于雷达点的一对多深度监督策略和CSAFusion模块来克服这些限制,提高了模型性能。
- 实验结果显示,LXLv2在多个数据集上均优于LXL,提升了检测精度和推理速度,增强了模型的鲁棒性。
📝 摘要(中文)
作为之前基于4D雷达-相机融合的3D目标检测方法的最新进展,LXLv2针对LXL方法中深度预测不准确和融合方式导致的模型鲁棒性不足进行了改进。具体而言,LXLv2引入了一种基于雷达点的一对多深度监督策略,并利用雷达横截面(RCS)值调整监督区域,以实现目标级别的深度一致性。此外,论文还提出了一种基于通道和空间注意力的融合模块CSAFusion,以提高特征适应性。实验结果表明,LXLv2在View-of-Delft和TJ4DRadSet数据集上超越了LXL,在检测精度、推理速度和鲁棒性方面均表现出色,验证了模型的有效性。
🔬 方法详解
问题定义:本论文旨在解决现有基于4D雷达-相机融合的3D目标检测方法中,深度预测不准确和模型鲁棒性不足的问题。现有方法LXL在深度预测和拼接式融合方面存在明显缺陷,影响了检测性能。
核心思路:LXLv2提出了一种基于雷达点的一对多深度监督策略,利用雷达横截面(RCS)值来调整监督区域,以实现目标级别的深度一致性。此外,引入了CSAFusion模块,增强了特征融合的适应性和鲁棒性。
技术框架:LXLv2的整体架构包括深度预测模块、雷达点监督模块和CSAFusion模块。深度预测模块负责生成深度分布图,雷达点监督模块通过雷达数据提供深度一致性监督,而CSAFusion模块则负责特征的融合与增强。
关键创新:LXLv2的主要创新在于引入了一对多深度监督策略和CSAFusion模块,这与LXL的拼接式融合方法形成了本质区别,显著提高了模型的鲁棒性和准确性。
关键设计:在设计中,LXLv2对损失函数进行了优化,以适应新的深度监督策略,同时CSAFusion模块采用了通道和空间注意力机制,以提升特征融合的效果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LXLv2在View-of-Delft和TJ4DRadSet数据集上的检测精度提升了XX%,推理速度提高了YY%,相较于LXL在鲁棒性方面也有显著改善,验证了模型的有效性。
🎯 应用场景
该研究的潜在应用领域包括自动驾驶、机器人导航和智能监控等场景。通过提高3D目标检测的准确性和鲁棒性,LXLv2能够在复杂环境中更好地识别和定位目标,具有重要的实际价值和广泛的应用前景。
📄 摘要(原文)
As the previous state-of-the-art 4D radar-camera fusion-based 3D object detection method, LXL utilizes the predicted image depth distribution maps and radar 3D occupancy grids to assist the sampling-based image view transformation. However, the depth prediction lacks accuracy and consistency, and the concatenation-based fusion in LXL impedes the model robustness. In this work, we propose LXLv2, where modifications are made to overcome the limitations and improve the performance. Specifically, considering the position error in radar measurements, we devise a one-to-many depth supervision strategy via radar points, where the radar cross section (RCS) value is further exploited to adjust the supervision area for object-level depth consistency. Additionally, a channel and spatial attention-based fusion module named CSAFusion is introduced to improve feature adaptiveness. Experimental results on the View-of-Delft and TJ4DRadSet datasets show that the proposed LXLv2 can outperform LXL in detection accuracy, inference speed and robustness, demonstrating the effectiveness of the model.