Depth-Aware Rover: A Study of Edge AI and Monocular Vision for Real-World Implementation
作者: Lomash Relia, Jai G Singla, Amitabh, Nitant Dube
分类: cs.CV
发布日期: 2026-04-24
备注: Accepted by IEEE
💡 一句话要点
提出基于边缘AI和单目视觉的月球车导航方案,适用于真实环境部署
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 月球车导航 单目深度估计 边缘AI 自主导航 机器人视觉
📋 核心要点
- 现有月球车导航方案依赖立体视觉,计算量大,成本高,难以在资源受限的真实环境中部署。
- 该论文提出一种基于边缘AI和单目视觉的月球车导航方案,降低计算复杂度和成本,提升部署可行性。
- 实验结果表明,该方案在真实环境中表现出良好的鲁棒性和成本效益,深度估计帧率为0.1 FPS,目标检测帧率为10 FPS。
📝 摘要(中文)
本研究分析了深度感知月球车导航在仿真和真实环境中的实现,重点研究了从立体视觉到使用边缘AI进行单目深度估计的转变。使用基于Unity的月球地形模拟器,配备立体相机和OpenCV的StereoSGBM算法来生成视差图。一个基于Raspberry Pi 4的物理月球车采用UniDepthV2进行单目度量深度估计,并采用YOLOv8n进行实时目标检测。虽然立体视觉在仿真中产生了更高的精度,但单目方法在真实部署中被证明更稳健且更具成本效益,深度估计达到0.1 FPS,目标检测达到10 FPS。
🔬 方法详解
问题定义:论文旨在解决月球车在真实环境中导航的问题。现有的立体视觉方案虽然精度较高,但计算复杂度高,对硬件要求高,成本也较高,难以在资源受限的嵌入式平台上部署。因此,需要一种更轻量级、更经济的深度感知方案,以实现月球车在真实环境中的自主导航。
核心思路:论文的核心思路是利用单目视觉结合边缘AI进行深度估计,替代传统的立体视觉方案。单目视觉只需要一个摄像头,大大降低了硬件成本和计算复杂度。通过在边缘设备上部署深度学习模型,可以实现实时的深度估计和目标检测,从而实现月球车的自主导航。
技术框架:整体框架包括两个主要部分:仿真环境和真实环境部署。在仿真环境中,使用Unity构建月球地形模拟器,并使用立体相机和StereoSGBM算法生成视差图,用于评估立体视觉的性能。在真实环境中,使用Raspberry Pi 4作为计算平台,搭载单目摄像头,并部署UniDepthV2模型进行深度估计,YOLOv8n模型进行目标检测。月球车通过感知周围环境,进行路径规划和避障。
关键创新:该论文的关键创新在于将单目深度估计和边缘AI技术应用于月球车导航。与传统的立体视觉方案相比,单目视觉方案具有更低的硬件成本和计算复杂度,更适合在资源受限的嵌入式平台上部署。通过在边缘设备上部署深度学习模型,可以实现实时的深度估计和目标检测,从而实现月球车的自主导航。
关键设计:在真实环境部署中,选择了UniDepthV2作为单目深度估计模型,因为它在精度和速度之间取得了较好的平衡。选择了YOLOv8n作为目标检测模型,因为它具有较高的检测精度和较快的推理速度。Raspberry Pi 4作为边缘计算平台,提供了足够的计算能力来运行这些模型。论文中没有详细说明损失函数和网络结构的具体参数设置,这部分信息可能属于UniDepthV2和YOLOv8n模型的固有参数。
📊 实验亮点
实验结果表明,虽然立体视觉在仿真环境中精度更高,但单目视觉方案在真实环境中表现出更好的鲁棒性和成本效益。单目深度估计的帧率为0.1 FPS,目标检测的帧率为10 FPS。该方案在真实环境中成功实现了月球车的自主导航,验证了其可行性和有效性。
🎯 应用场景
该研究成果可应用于月球探测、火星探测等空间探索任务,也可应用于地面巡检、无人驾驶等领域。通过降低硬件成本和计算复杂度,该方案有望推动自主导航技术在资源受限环境中的应用,例如灾后救援、农业机器人等。
📄 摘要(原文)
This study analyses simulated and real-world implementations of depth-aware rover navigation, highlighting the transition from stereo vision to monocular depth estimation using edge AI. A Unity-based lunar terrain simulator with stereo cameras and OpenCV's StereoSGBM was used to generate disparity maps. A physical rover built on Raspberry Pi 4 employed UniDepthV2 for monocular metric depth estimation and YOLO12n for real-time object detection. While stereo vision yielded higher accuracy in simulation, the monocular approach proved more robust and cost-effective in real-world deployment, achieving 0.1 FPS for depth and 10 FPS for detection.