Sparse-LiDAR Prompting of Monocular Geometry Foundations: An Empirical Study Toward Long-Range Driving Depth

📄 arXiv: 2605.26456v1 📥 PDF

作者: Kai Zheng, Qiang Feng, Xingjian Liu, Wenquan Tan, Yuan Li

分类: cs.CV

发布日期: 2026-05-26

备注: 6 pages, 3 figures, 2 tables


💡 一句话要点

提出SLIM,通过稀疏激光雷达提示单目几何基础模型,提升长距离驾驶场景深度估计性能。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 稀疏激光雷达 单目深度估计 长距离驾驶 几何基础模型 部分卷积

📋 核心要点

  1. 现有方法在长距离驾驶场景下的深度估计性能评估不足,缺乏系统性的距离分层评估。
  2. SLIM通过部分卷积稀疏编码器和多尺度融合颈部,将稀疏激光雷达信息注入到单目几何基础模型MoGe-2中。
  3. 实验表明,SLIM在Virtual KITTI和CARLA数据集上,显著降低了100-150米范围内的深度估计误差。

📝 摘要(中文)

稀疏激光雷达提示的深度基础模型(PromptDA、Prior Depth Anything、DMD3C)在室内场景或KITTI标准80米评估范围内表现出强大的性能。然而,仍然存在两个局限性:(i)在长距离驾驶场景(50-150米)中,缺乏系统的距离分层评估;(ii)先前基于视差的方法依赖于预插值的密集先验,使得在点云地图基础上的真正稀疏激光雷达注入(例如,MoGe-2)未被探索。我们提出了SLIM(Sparse-LiDAR Injected Monocular geometry),这是MoGe-2的第一个适配版本,可以接受真正稀疏的激光雷达输入。SLIM集成了部分卷积稀疏编码器和一个多尺度融合颈部,将激光雷达特征在五个尺度上融合到点云地图解码器中。我们采用密度无关训练(随机注入率在[0.005, 0.30]范围内),因此单个模型可以服务于不同的输入密度。在Virtual KITTI和CARLA上,SLIM将MoGe-2基线在100-150米处的绝对相对误差降低了约39-51%。对六种注入率的消融实验表明,部分卷积注入在所有六种设置下都提高了Virtual KITTI上的AbsRel和RMSE;在CARLA上,AbsRel在六种设置中的五种设置中有所提高(一种设置接近平局,差异为0.0013),并且RMSE在编码器之间具有可比性,其中部分卷积在三种设置中有所提高(最多0.31个单位),在其他三种设置中最多损失0.11个单位。

🔬 方法详解

问题定义:论文旨在解决长距离驾驶场景下单目深度估计问题,现有方法如MoGe-2虽然在近距离表现良好,但在50-150米的长距离范围内,精度显著下降。此外,现有方法通常依赖于预插值的密集激光雷达数据,无法有效利用真实场景中稀疏的激光雷达信息。

核心思路:论文的核心思路是将稀疏激光雷达数据作为提示信息,注入到单目几何基础模型中,从而提升长距离深度估计的精度。通过设计特定的网络结构,有效融合稀疏激光雷达特征和单目图像特征,克服了稀疏数据带来的挑战。

技术框架:SLIM的整体架构包括三个主要模块:部分卷积稀疏编码器、多尺度融合颈部和点云地图解码器。首先,部分卷积稀疏编码器用于提取稀疏激光雷达的特征。然后,多尺度融合颈部将激光雷达特征在五个不同的尺度上融合到点云地图解码器中。最后,点云地图解码器根据融合后的特征,生成最终的深度估计结果。

关键创新:SLIM的关键创新在于其能够直接处理稀疏激光雷达数据,并将其有效地融合到单目深度估计模型中。与现有方法依赖于密集激光雷达数据不同,SLIM通过部分卷积操作,克服了稀疏数据带来的信息缺失问题,从而提升了长距离深度估计的精度。此外,密度无关训练策略使得单个模型可以适应不同的激光雷达密度。

关键设计:SLIM采用部分卷积作为稀疏编码器的核心操作,有效处理稀疏数据。多尺度融合颈部在五个尺度上融合激光雷达特征,充分利用不同尺度的信息。密度无关训练通过在[0.005, 0.30]范围内随机选择注入率,使得模型对不同的激光雷达密度具有鲁棒性。损失函数采用常用的深度估计损失函数,如L1损失或Huber损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SLIM在Virtual KITTI和CARLA数据集上,显著降低了长距离深度估计的误差。具体而言,SLIM将MoGe-2基线在100-150米处的绝对相对误差降低了约39-51%。消融实验表明,部分卷积注入在不同激光雷达密度下均能提升深度估计的精度。

🎯 应用场景

该研究成果可应用于自动驾驶、高级驾驶辅助系统(ADAS)、机器人导航等领域。通过提升长距离深度估计的精度,可以提高自动驾驶车辆对周围环境的感知能力,从而提高驾驶安全性。此外,该方法还可以应用于三维重建、虚拟现实等领域。

📄 摘要(原文)

Sparse-LiDAR-prompted depth foundation models (PromptDA, Prior Depth Anything, DMD3C) have shown strong results on indoor scenes or within KITTI's standard 80-meter evaluation cap. However, two limitations remain: (i) systematic distance-stratified evaluation in long-range driving regimes (50-150 m) is largely absent; (ii) prior approaches built on disparity-based foundations rely on pre-interpolated dense priors, leaving truly sparse LiDAR injection on point-map foundations (e.g., MoGe-2, NeurIPS 2025) unexplored. We present SLIM (Sparse-LiDAR Injected Monocular geometry), the first adaptation of MoGe-2 to accept truly sparse LiDAR input. SLIM integrates a partial-convolution sparse encoder with a multi-scale fusion neck that fuses LiDAR features into the point-map decoder at five scales. We adopt density-agnostic training (random injection ratio in [0.005, 0.30]) so a single model serves diverse input densities. On Virtual KITTI and CARLA, SLIM reduces the absolute relative error of the MoGe-2 baseline by approximately 39-51% at 100-150 m. Ablation across six injection ratios shows partial-convolution injection improves both AbsRel and RMSE on Virtual KITTI in all six settings; on CARLA, AbsRel improves in five of six settings (one near-tie at 0.015 differs by 0.0013), and RMSE is comparable across encoders, with partial-convolution improving in three settings (by up to 0.31 unit) and losing by at most 0.11 unit in the other three.