An Open-Source LiDAR and Monocular Off-Road Autonomous Navigation Stack
作者: Rémi Marsal, Quentin Picard, Adrien Poiré, Sébastien Kerbourc'h, Thibault Toralba, Clément Yver, Alexandre Chapoutot, David Filliat
分类: cs.RO
发布日期: 2026-04-06
💡 一句话要点
提出开源的激光雷达与单目视觉越野自主导航方案,无需特定任务训练。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 越野导航 自主导航 单目视觉 深度估计 SLAM 开源 机器人
📋 核心要点
- 越野导航依赖高精度3D感知,但激光雷达成本高昂,单目深度估计集成到导航系统中仍面临挑战。
- 该方案结合零样本深度估计与稀疏SLAM,通过边缘掩蔽和时间平滑增强鲁棒性,生成用于路径规划的2.5D高程图。
- 实验表明,在仿真和真实环境中,单目配置在多数场景下可媲美高分辨率激光雷达,为越野导航提供了一种轻量化替代方案。
📝 摘要(中文)
越野自主导航需要在非结构化地形中进行可靠的3D感知,以实现鲁棒的障碍物检测。激光雷达虽然精确,但成本高且功耗大。使用基础模型的单目深度估计提供了一种轻量级的替代方案,但其在户外导航堆栈中的集成仍未得到充分探索。本文提出了一个开源的越野导航堆栈,支持激光雷达和单目3D感知,无需特定任务的训练。对于单目设置,我们将零样本深度预测(Depth Anything V2)与使用稀疏SLAM测量(VINS-Mono)的度量深度重缩放相结合。两个关键的增强功能提高了鲁棒性:边缘掩蔽减少了障碍物幻觉,时间平滑减轻了SLAM不稳定性的影响。生成的点云用于生成以机器人为中心的2.5D高程图,以进行基于代价地图的规划。在逼真的模拟环境(Isaac Sim)和真实世界的非结构化环境中进行的评估表明,在大多数情况下,单目配置的性能与高分辨率激光雷达的性能相匹配,这表明基于基础模型的单目深度估计是鲁棒越野导航的可行激光雷达替代方案。通过开源导航堆栈和模拟环境,我们提供了一个完整的越野导航流水线以及一个可复现的基准。
🔬 方法详解
问题定义:越野自主导航需要准确的3D环境感知,以进行障碍物检测和路径规划。激光雷达虽然精度高,但成本和功耗较高,不适用于资源受限的平台。单目视觉深度估计是一种潜在的替代方案,但现有方法在非结构化环境中鲁棒性不足,容易出现深度估计错误和幻觉,导致导航失败。
核心思路:利用预训练的深度估计模型(Depth Anything V2)进行零样本深度预测,结合稀疏SLAM(VINS-Mono)提供的度量尺度信息进行深度重缩放,从而获得具有度量尺度的稠密深度图。通过边缘掩蔽减少深度估计中的幻觉,并采用时间平滑来抑制SLAM估计的不稳定性,提高整体系统的鲁棒性。
技术框架:该导航堆栈包含以下主要模块:1) 单目图像输入;2) Depth Anything V2进行零样本深度估计;3) VINS-Mono进行稀疏SLAM,提供相机位姿和稀疏点云;4) 基于SLAM结果对深度图进行度量尺度重缩放;5) 边缘掩蔽和时间平滑;6) 将深度图转换为点云;7) 从点云生成2.5D高程图;8) 基于代价地图的路径规划。
关键创新:该方法的主要创新在于将预训练的深度估计模型与稀疏SLAM相结合,用于越野自主导航。与传统的基于学习的深度估计方法相比,该方法无需针对特定任务进行训练,具有更好的泛化能力。此外,边缘掩蔽和时间平滑是提高系统鲁棒性的关键技术。
关键设计:边缘掩蔽通过识别图像中的边缘区域,并降低这些区域的深度值,从而减少障碍物幻觉。时间平滑采用滑动窗口平均的方式,对SLAM估计的相机位姿进行平滑处理,从而抑制SLAM估计的不稳定性。2.5D高程图的分辨率和范围是影响路径规划性能的关键参数,需要根据具体应用场景进行调整。
🖼️ 关键图片
📊 实验亮点
在Isaac Sim仿真和真实越野环境中的实验表明,基于单目视觉的导航系统在多数场景下可以达到与高分辨率激光雷达相当的性能。通过边缘掩蔽和时间平滑,显著提高了系统的鲁棒性。该开源导航堆栈提供了一个完整的越野导航流水线,并提供了一个可复现的基准。
🎯 应用场景
该研究成果可应用于各种越野自主导航场景,例如农业机器人、搜救机器人、矿业机器人和军事侦察机器人。该方案降低了对昂贵激光雷达的依赖,为资源受限的平台提供了可行的自主导航解决方案。开源代码和仿真环境的发布,将促进越野自主导航技术的发展和应用。
📄 摘要(原文)
Off-road autonomous navigation demands reliable 3D perception for robust obstacle detection in challenging unstructured terrain. While LiDAR is accurate, it is costly and power-intensive. Monocular depth estimation using foundation models offers a lightweight alternative, but its integration into outdoor navigation stacks remains underexplored. We present an open-source off-road navigation stack supporting both LiDAR and monocular 3D perception without task-specific training. For the monocular setup, we combine zero-shot depth prediction (Depth Anything V2) with metric depth rescaling using sparse SLAM measurements (VINS-Mono). Two key enhancements improve robustness: edge-masking to reduce obstacle hallucination and temporal smoothing to mitigate the impact of SLAM instability. The resulting point cloud is used to generate a robot-centric 2.5D elevation map for costmap-based planning. Evaluated in photorealistic simulations (Isaac Sim) and real-world unstructured environments, the monocular configuration matches high-resolution LiDAR performance in most scenarios, demonstrating that foundation-model-based monocular depth estimation is a viable LiDAR alternative for robust off-road navigation. By open-sourcing the navigation stack and the simulation environment, we provide a complete pipeline for off-road navigation as well as a reproducible benchmark. Code available atthis https URL.