Selection, Not Fusion: Radar-Modulated State Space Models for Radar-Camera Depth Estimation
作者: Zhangcheng Hou, Tomoaki Ohtsuki
分类: cs.CV
发布日期: 2026-05-12
备注: 16 pages, 3 figures, 9 tables
💡 一句话要点
提出雷达调制选择机制以解决雷达-相机深度估计问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 雷达-相机融合 深度估计 多模态学习 自动驾驶 环境感知
📋 核心要点
- 现有的雷达-相机深度估计方法未能有效结合雷达与图像特征,导致性能不足。
- 本文提出雷达调制选择(RMS),通过在选择机制中引入雷达信号,优化深度估计的准确性。
- 在nuScenes数据集上,SemoDepth实现了最先进的性能,MAE显著降低,同时保持了较低的延迟。
📝 摘要(中文)
雷达-相机深度估计需要将超稀疏的全天气雷达信号转化为密集的每像素深度图。现有方法如拼接、基于置信度的门控等,未能有效结合雷达与图像特征。本文提出雷达调制选择(RMS),通过在选择扫描中引入雷达信号,优化模型的准确性。RMS在多视图扫描金字塔(MVSP)中应用,显著提升了在nuScenes数据集上的表现,MAE分别降低34.0%、29.9%和29.9%,并实现了最低的单帧延迟(26.8ms)。
🔬 方法详解
问题定义:本文旨在解决雷达-相机深度估计中的特征融合问题。现有方法如拼接和图形提取未能有效利用雷达信号,导致深度估计性能不足。
核心思路:提出雷达调制选择(RMS),通过在选择扫描中直接引入雷达信号,优化模型的准确性。该方法确保雷达信号仅在有助于提高准确性的情况下影响模型。
技术框架:RMS集成在多视图扫描金字塔(MVSP)中,匹配雷达的空间范围,确保在每个尺度上有效利用雷达信息。主要模块包括雷达调制、选择机制和图像特征提取。
关键创新:RMS的核心创新在于将雷达信号的调制引入选择机制,而非简单的特征融合。这种方法在每个递归步骤中实现了线性成本的跨模态耦合,并在缺乏雷达信号时自然回退到图像基础模型。
关键设计:RMS在初始化时与预训练的图像模型等价,确保雷达信号的影响是可控的。关键参数包括调制的步长和读取矩阵的设置,确保模型在不同条件下的稳定性和准确性。
🖼️ 关键图片
📊 实验亮点
在nuScenes数据集上,SemoDepth的MAE在0-50m、0-70m和0-80m的表现分别降低了34.0%、29.9%和29.9%,显示出显著的性能提升。此外,该方法实现了最低的单帧延迟(26.8ms),证明了其在实时应用中的有效性。
🎯 应用场景
该研究在自动驾驶、机器人导航和增强现实等领域具有广泛的应用潜力。通过提高雷达与相机的深度估计精度,能够显著提升环境感知能力,进而改善自主系统的决策和操作效率。未来,该方法还可能扩展到其他跨模态学习任务中。
📄 摘要(原文)
Radar-camera depth estimation must turn an ultra-sparse, all-weather, metric radar signal into a dense per-pixel depth map. Existing methods -- concatenation, confidence-aware gating, sparse supervision, graph-based extraction -- combine radar and image features outside the backbone's sequence operator, and even cross-modal Mamba variants leave the selection mechanism itself unimodal. We argue that the selection mechanism is the right place for radar to enter. We introduce Radar-Modulated Selection (RMS), a minimal and principled way to inject radar into Mamba's selective scan: radar modulates the scan from within, adding zero-initialised perturbations to the step size $Δ$ and readout $\mathbf{C}$ while leaving the input projection $\mathbf{B}$ and state dynamics $\mathbf{A}$ image-only. The construction is exactly equivalent to a pretrained image-only Mamba at initialisation, ensuring radar only influences the model where it improves accuracy. Two further properties follow that out-of-scan fusion cannot offer: linear-cost cross-modal coupling at every recurrence step, and a natural fallback to the image-only backbone when radar is absent. We deploy RMS in a Multi-View Scan Pyramid (MVSP) that matches the fusion operator to radar's spatial reach at each scale. SemoDepth achieves state-of-the-art performance on nuScenes, reducing MAE by 34.0%, 29.9%, and 29.9% over the previous best at 0--50, 0--70, and 0--80m, while attaining the lowest single-frame latency (26.8ms). A further ablation shows that out-of-scan feature blending adds no accuracy on top of RMS, providing empirical validation that in-scan selection can replace out-of-scan fusion.