RCGDet3D: Rethinking 4D Radar-Camera Fusion-based 3D Object Detection with Enhanced Radar Feature Encoding

📄 arXiv: 2605.21112v1 📥 PDF

作者: Weiyi Xiong, Bing Zhu

分类: cs.CV

发布日期: 2026-05-20


💡 一句话要点

RCGDet3D:通过增强雷达特征编码,提升4D雷达-相机融合的3D目标检测性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 3D目标检测 雷达-相机融合 自动驾驶 特征编码 实时感知

📋 核心要点

  1. 现有雷达-相机融合方法过于依赖复杂的融合策略,导致计算量大,难以满足实时性要求,而对稀疏雷达点云的特征提取潜力挖掘不足。
  2. RCGDet3D通过增强雷达特征编码来简化多模态融合,提出了射线中心点高斯编码器(R-PGE)和语义注入(SI)模块,提升雷达特征的几何一致性和语义丰富性。
  3. 实验结果表明,RCGDet3D在VoD和TJ4DRadSet数据集上,在精度和速度上均超越了现有最佳方法,为实时部署提供了新的解决方案。

📝 摘要(中文)

4D车载雷达因其低成本和鲁棒性,在自动驾驶中不可或缺,但其点云的稀疏性给3D目标检测带来了挑战。现有的4D雷达-相机融合方法侧重于复杂的融合策略,以牺牲推理速度为代价来换取边际收益。这种权衡因对密集特征图的大量计算而阻碍了实时部署。相比之下,从稀疏雷达点提取特征耗时更少,但仍未得到充分探索。这项工作发现,简单地增强雷达特征提取可以实现与复杂融合模块相当甚至更高的性能,同时保持实时性能。基于这一发现,我们提出了RCGDet3D,它以雷达特征编码为中心,并简化了多模态融合。其编码器继承自RadarGaussianDet3D中高效的基于高斯溅射的点高斯编码器(PGE),并进行了两项关键改进。首先,以射线为中心的PGE(R-PGE)在将高斯属性统一到鸟瞰图(BEV)空间之前,在射线对齐的坐标系中预测高斯属性,从而显著提高了几何一致性,并通过将坐标变换与表示学习分离来降低学习难度。其次,语义注入(SI)模块结合了来自图像的视觉线索,从而产生更具几何精度和语义丰富的雷达特征。在View-of-Delft(VoD)和TJ4DRadSet上的实验表明,RCGDet3D在准确性和速度方面均优于最先进的方法,为实时部署树立了新的基准。

🔬 方法详解

问题定义:论文旨在解决4D雷达-相机融合的3D目标检测中,现有方法过度依赖复杂融合策略导致推理速度慢,难以满足实时性要求的问题。现有方法对稀疏雷达点云的特征提取能力挖掘不足,导致性能提升受限。

核心思路:论文的核心思路是通过增强雷达特征编码来简化多模态融合,从而在保证甚至提升检测精度的同时,显著提高推理速度。通过更有效地利用雷达数据本身的几何和语义信息,降低对复杂融合模块的依赖。

技术框架:RCGDet3D的整体框架包括雷达特征编码、图像特征提取和多模态融合三个主要阶段。雷达特征编码器是核心,基于RadarGaussianDet3D中的点高斯编码器(PGE)进行改进。图像特征通过语义注入(SI)模块融入雷达特征中。最后,将融合后的特征用于3D目标检测。

关键创新:RCGDet3D的关键创新在于两个方面:一是射线中心点高斯编码器(R-PGE),它在射线对齐的坐标系中预测高斯属性,显著提高了几何一致性;二是语义注入(SI)模块,它将图像的视觉线索融入雷达特征,增强了雷达特征的语义信息。与现有方法相比,RCGDet3D更侧重于雷达特征的有效编码,而非复杂的融合策略。

关键设计:R-PGE的关键设计在于将坐标变换与表示学习解耦,在射线坐标系下进行高斯属性预测,避免了直接在BEV空间学习带来的困难。SI模块的关键设计在于如何有效地将图像特征融入雷达特征,具体实现细节(如融合方式、损失函数等)未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RCGDet3D在View-of-Delft (VoD) 和 TJ4DRadSet 数据集上进行了实验,结果表明,该方法在精度和速度上均优于现有最佳方法,为实时部署树立了新的基准。具体的性能数据和提升幅度未知,但强调了其在实时性和准确性上的显著优势。

🎯 应用场景

RCGDet3D的研究成果可广泛应用于自动驾驶领域,尤其是在需要实时感知和决策的场景中。通过提升雷达-相机融合的效率和精度,可以提高自动驾驶系统的安全性、可靠性和适应性,例如在恶劣天气条件下的目标检测和跟踪,以及在城市复杂环境中的导航。

📄 摘要(原文)

4D automotive radar is indispensable for autonomous driving due to its low cost and robustness, yet its point cloud sparsity challenges 3D object detection. Existing 4D radar-camera fusion methods focus on complex fusion strategies, trading inference speed for marginal gains. This trade-off hinders real-time deployment due to heavy computation on dense feature maps. In contrast, feature extraction from sparse radar points is less time-consuming but remains under-explored. This work uncovers that simply enhancing radar feature extraction can achieve comparable or even higher performance than elaborate fusion modules, while maintaining real-time performance. Based on this finding, we propose RCGDet3D, which centers on radar feature encoding and simplifies multi-modal fusion. Its encoder inherits from the efficient Gaussian Splatting-based Point Gaussian Encoder (PGE) in RadarGaussianDet3D with two key improvements. First, the Ray-centric PGE (R-PGE) predicts Gaussian attributes in ray-aligned coordinate systems before unifying them to Bird's-Eye View (BEV) space, significantly improving geometric consistency and reducing learning difficulty by decoupling the coordinate transformation from representation learning. Second, a Semantic Injection (SI) module incorporates visual cues from images, producing more geometrically accurate and semantically enriched radar features. Experiments on View-of-Delft (VoD) and TJ4DRadSet show that RCGDet3D outperforms state-of-the-art methods in both accuracy and speed, setting a new benchmark for real-time deployment.