DinoRADE: Full Spectral Radar-Camera Fusion with Vision Foundation Model Features for Multi-class Object Detection in Adverse Weather

📄 arXiv: 2604.08074v1 📥 PDF

作者: Christof Leitgeb, Thomas Puchleitner, Max Peter Ronecker, Daniel Watzenig

分类: cs.CV

发布日期: 2026-04-09

备注: Accepted to IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 2026

🔗 代码/项目: GITHUB


💡 一句话要点

DinoRADE:利用视觉基础模型特征的全光谱雷达-相机融合,用于恶劣天气下的多类别目标检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 雷达-相机融合 目标检测 恶劣天气 视觉基础模型 可变形交叉注意力

📋 核心要点

  1. 现有雷达-相机融合方法在恶劣天气下检测弱势道路使用者(VRU)时,缺乏足够的精细空间细节,限制了检测性能。
  2. DinoRADE通过可变形交叉注意力机制,将DINOv3视觉基础模型提取的视觉特征聚合到雷达数据中,实现更精确的目标检测。
  3. 在K-Radar数据集上的实验表明,DinoRADE在多类别目标检测任务中,显著优于现有雷达-相机融合方法,提升高达12.1%。

📝 摘要(中文)

为了实现安全自动驾驶所需的天气鲁棒感知系统,通常采用多模态传感器配置以实现全面的环境感知。虽然最近基于汽车FMCW雷达的方法在恶劣天气下的检测任务中取得了显著的性能,但它们在解决精细空间细节方面存在局限性,这对于检测小型和弱势道路使用者(VRU)至关重要。此外,现有研究尚未充分解决恶劣天气数据集(如K-Radar)中的VRU检测问题。我们提出了DinoRADE,一个以雷达为中心的检测流程,它处理密集的雷达张量,并通过可变形交叉注意力聚合相机视角中转换后的参考点周围的视觉特征。视觉特征由DINOv3视觉基础模型提供。我们对K-Radar数据集在所有天气条件下进行了全面的性能评估,并且是首批报告五类目标单独检测性能的团队之一。此外,我们将我们的方法与现有的单类检测方法进行了比较,并且优于最近的雷达-相机方法12.1%。

🔬 方法详解

问题定义:论文旨在解决恶劣天气下,雷达-相机融合在检测弱势道路使用者(VRU)时,由于雷达分辨率不足和视觉信息缺失导致的精度问题。现有方法难以充分利用视觉信息,尤其是在恶劣天气下,导致VRU检测性能不佳。

核心思路:论文的核心思路是利用视觉基础模型(DINOv3)提取的强大视觉特征,通过可变形交叉注意力机制,将这些特征融合到雷达数据中。这种方法能够弥补雷达在空间细节上的不足,并增强对VRU的感知能力。

技术框架:DinoRADE是一个以雷达为中心的检测流程。首先,处理密集的雷达张量。然后,利用DINOv3视觉基础模型提取视觉特征。接着,将雷达数据转换到相机视角,并使用可变形交叉注意力机制,将视觉特征聚合到雷达参考点周围。最后,进行目标检测。

关键创新:该方法最重要的创新点在于使用DINOv3视觉基础模型提取的视觉特征,并通过可变形交叉注意力机制进行雷达-相机特征融合。与传统方法相比,DinoRADE能够更有效地利用视觉信息,尤其是在恶劣天气下,从而提高VRU的检测精度。

关键设计:DinoRADE的关键设计包括:1) 使用DINOv3作为视觉特征提取器;2) 使用可变形交叉注意力机制进行特征融合,允许模型自适应地学习视觉特征与雷达特征之间的对应关系;3) 针对K-Radar数据集进行了专门的优化,包括数据增强和损失函数调整等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DinoRADE在K-Radar数据集上进行了全面评估,结果表明,该方法在多类别目标检测任务中取得了显著的性能提升。与现有雷达-相机融合方法相比,DinoRADE的检测精度提高了12.1%。此外,该研究还首次报告了K-Radar数据集上五类目标(包括VRU)的单独检测性能,为后续研究提供了重要的参考。

🎯 应用场景

DinoRADE技术可应用于自动驾驶、高级驾驶辅助系统(ADAS)等领域,尤其是在恶劣天气条件下,能够提高车辆对周围环境的感知能力,从而提升驾驶安全性。该研究对于推动全天候自动驾驶技术的发展具有重要意义,并有望减少交通事故的发生。

📄 摘要(原文)

Reliable and weather-robust perception systems are essential for safe autonomous driving and typically employ multi-modal sensor configurations to achieve comprehensive environmental awareness. While recent automotive FMCW Radar-based approaches achieved remarkable performance on detection tasks in adverse weather conditions, they exhibited limitations in resolving fine-grained spatial details particularly critical for detecting smaller and vulnerable road users (VRUs). Furthermore, existing research has not adequately addressed VRU detection in adverse weather datasets such as K-Radar. We present DinoRADE, a Radar-centered detection pipeline that processes dense Radar tensors and aggregates vision features around transformed reference points in the camera perspective via deformable cross-attention. Vision features are provided by a DINOv3 Vision Foundation Model. We present a comprehensive performance evaluation on the K-Radar dataset in all weather conditions and are among the first to report detection performance individually for five object classes. Additionally, we compare our method with existing single-class detection approaches and outperform recent Radar-camera approaches by 12.1%. The code is available under https://github.com/chr-is-tof/RADE-Net.