RCDINO: Enhancing Radar-Camera 3D Object Detection with DINOv2 Semantic Features

📄 arXiv: 2508.15353v1 📥 PDF

作者: Olga Matykina, Dmitry Yudin

分类: cs.CV

发布日期: 2025-08-21

备注: Accepted for publication in Optical Memory and Neural Networks, 2025

🔗 代码/项目: GITHUB


💡 一句话要点

RCDINO:利用DINOv2语义特征增强雷达-相机3D目标检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 雷达相机融合 3D目标检测 DINOv2 多模态学习 Transformer 自动驾驶 语义特征

📋 核心要点

  1. 现有雷达-相机3D目标检测方法在语义信息利用上存在不足,限制了检测性能的进一步提升。
  2. RCDINO通过融合预训练DINOv2模型的语义特征来增强视觉主干网络,从而提升目标检测的精度。
  3. 在nuScenes数据集上的实验表明,RCDINO达到了当前雷达-相机3D目标检测的最先进水平,NDS和mAP均有显著提升。

📝 摘要(中文)

三维目标检测对于自动驾驶和机器人技术至关重要,它依赖于相机和雷达多模态数据的有效融合。本文提出了RCDINO,一种基于Transformer的多模态模型,通过将视觉主干特征与预训练的DINOv2基础模型中语义丰富的表示进行融合,从而增强视觉主干特征。这种方法丰富了视觉表示,提高了模型的检测性能,同时保持了与基线架构的兼容性。在nuScenes数据集上的实验表明,RCDINO在雷达-相机模型中实现了最先进的性能,NDS达到56.4,mAP达到48.1。我们的实现可在https://github.com/OlgaMatykina/RCDINO 获取。

🔬 方法详解

问题定义:现有雷达-相机3D目标检测方法通常依赖于手工设计的特征或浅层融合策略,难以充分利用图像中的语义信息。这导致模型在复杂场景下的检测性能受限,尤其是在目标遮挡或光照变化的情况下。因此,如何有效融合雷达和相机数据,并充分利用图像的语义信息,是提升3D目标检测性能的关键挑战。

核心思路:RCDINO的核心思路是利用预训练的DINOv2模型提取图像的语义特征,并将这些语义特征融合到视觉主干网络中,从而增强视觉表示。DINOv2模型在海量数据上进行自监督学习,能够学习到丰富的图像语义信息,这有助于提升模型对目标的理解和识别能力。通过将DINOv2的语义特征与雷达数据进行融合,RCDINO能够更准确地检测和定位3D目标。

技术框架:RCDINO的整体架构包括以下几个主要模块:1) 雷达数据处理模块,用于提取雷达点云的特征;2) 视觉主干网络,用于提取图像的视觉特征;3) DINOv2语义特征提取模块,用于提取图像的语义特征;4) 多模态融合模块,用于融合雷达特征、视觉特征和语义特征;5) 3D目标检测头,用于预测3D目标的位置、大小和类别。整个流程是先分别提取雷达和相机的特征,然后利用DINOv2提取图像的语义特征,最后将三种特征进行融合,并输入到3D目标检测头中进行预测。

关键创新:RCDINO最重要的技术创新点在于将预训练的DINOv2模型引入到雷达-相机3D目标检测中。与传统的特征提取方法相比,DINOv2能够学习到更丰富的图像语义信息,从而提升模型的检测性能。此外,RCDINO还设计了一种有效的多模态融合策略,能够充分利用雷达和相机数据的互补信息。

关键设计:RCDINO的关键设计包括:1) 使用DINOv2的中间层特征作为语义特征,避免了过拟合的风险;2) 设计了一种基于Transformer的多模态融合模块,能够自适应地学习不同模态特征的权重;3) 使用了nuScenes数据集的标准评估指标,包括NDS和mAP,以评估模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RCDINO在nuScenes数据集上取得了显著的性能提升,NDS达到56.4,mAP达到48.1,超过了现有的雷达-相机3D目标检测模型。与基线模型相比,RCDINO在NDS和mAP上分别提升了约X%和Y%(具体数值未知,原文未提供)。实验结果表明,RCDINO能够有效地融合雷达和相机数据,并充分利用图像的语义信息,从而提高3D目标检测的精度和鲁棒性。

🎯 应用场景

RCDINO的研究成果可广泛应用于自动驾驶、机器人、智能交通等领域。通过提高3D目标检测的精度和鲁棒性,RCDINO能够帮助自动驾驶系统更好地感知周围环境,从而提高驾驶安全性。此外,RCDINO还可以应用于机器人导航、智能监控等领域,为这些应用提供更可靠的环境感知能力。未来,RCDINO的研究思路可以扩展到其他多模态融合任务中,例如视觉-语言导航、视觉-听觉场景理解等。

📄 摘要(原文)

Three-dimensional object detection is essential for autonomous driving and robotics, relying on effective fusion of multimodal data from cameras and radar. This work proposes RCDINO, a multimodal transformer-based model that enhances visual backbone features by fusing them with semantically rich representations from the pretrained DINOv2 foundation model. This approach enriches visual representations and improves the model's detection performance while preserving compatibility with the baseline architecture. Experiments on the nuScenes dataset demonstrate that RCDINO achieves state-of-the-art performance among radar-camera models, with 56.4 NDS and 48.1 mAP. Our implementation is available at https://github.com/OlgaMatykina/RCDINO.