Depth-Aware Rover: A Study of Edge AI and Monocular Vision for Real-World Implementation

作者: Lomash Relia, Jai G Singla, Amitabh, Nitant Dube

分类: cs.CV

发布日期: 2026-04-24

备注: Accepted by IEEE

💡 一句话要点

提出基于边缘AI和单目视觉的月球车导航方案，适用于真实环境部署

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 月球车导航 单目深度估计 边缘AI 自主导航 机器人视觉

📋 核心要点

现有月球车导航方案依赖立体视觉，计算量大，成本高，难以在资源受限的真实环境中部署。
该论文提出一种基于边缘AI和单目视觉的月球车导航方案，降低计算复杂度和成本，提升部署可行性。
实验结果表明，该方案在真实环境中表现出良好的鲁棒性和成本效益，深度估计帧率为0.1 FPS，目标检测帧率为10 FPS。

📝 摘要（中文）

本研究分析了深度感知月球车导航在仿真和真实环境中的实现，重点研究了从立体视觉到使用边缘AI进行单目深度估计的转变。使用基于Unity的月球地形模拟器，配备立体相机和OpenCV的StereoSGBM算法来生成视差图。一个基于Raspberry Pi 4的物理月球车采用UniDepthV2进行单目度量深度估计，并采用YOLOv8n进行实时目标检测。虽然立体视觉在仿真中产生了更高的精度，但单目方法在真实部署中被证明更稳健且更具成本效益，深度估计达到0.1 FPS，目标检测达到10 FPS。

🔬 方法详解

问题定义：论文旨在解决月球车在真实环境中导航的问题。现有的立体视觉方案虽然精度较高，但计算复杂度高，对硬件要求高，成本也较高，难以在资源受限的嵌入式平台上部署。因此，需要一种更轻量级、更经济的深度感知方案，以实现月球车在真实环境中的自主导航。

核心思路：论文的核心思路是利用单目视觉结合边缘AI进行深度估计，替代传统的立体视觉方案。单目视觉只需要一个摄像头，大大降低了硬件成本和计算复杂度。通过在边缘设备上部署深度学习模型，可以实现实时的深度估计和目标检测，从而实现月球车的自主导航。

技术框架：整体框架包括两个主要部分：仿真环境和真实环境部署。在仿真环境中，使用Unity构建月球地形模拟器，并使用立体相机和StereoSGBM算法生成视差图，用于评估立体视觉的性能。在真实环境中，使用Raspberry Pi 4作为计算平台，搭载单目摄像头，并部署UniDepthV2模型进行深度估计，YOLOv8n模型进行目标检测。月球车通过感知周围环境，进行路径规划和避障。

关键创新：该论文的关键创新在于将单目深度估计和边缘AI技术应用于月球车导航。与传统的立体视觉方案相比，单目视觉方案具有更低的硬件成本和计算复杂度，更适合在资源受限的嵌入式平台上部署。通过在边缘设备上部署深度学习模型，可以实现实时的深度估计和目标检测，从而实现月球车的自主导航。

关键设计：在真实环境部署中，选择了UniDepthV2作为单目深度估计模型，因为它在精度和速度之间取得了较好的平衡。选择了YOLOv8n作为目标检测模型，因为它具有较高的检测精度和较快的推理速度。Raspberry Pi 4作为边缘计算平台，提供了足够的计算能力来运行这些模型。论文中没有详细说明损失函数和网络结构的具体参数设置，这部分信息可能属于UniDepthV2和YOLOv8n模型的固有参数。

📊 实验亮点

实验结果表明，虽然立体视觉在仿真环境中精度更高，但单目视觉方案在真实环境中表现出更好的鲁棒性和成本效益。单目深度估计的帧率为0.1 FPS，目标检测的帧率为10 FPS。该方案在真实环境中成功实现了月球车的自主导航，验证了其可行性和有效性。

🎯 应用场景

该研究成果可应用于月球探测、火星探测等空间探索任务，也可应用于地面巡检、无人驾驶等领域。通过降低硬件成本和计算复杂度，该方案有望推动自主导航技术在资源受限环境中的应用，例如灾后救援、农业机器人等。

📄 摘要（原文）

This study analyses simulated and real-world implementations of depth-aware rover navigation, highlighting the transition from stereo vision to monocular depth estimation using edge AI. A Unity-based lunar terrain simulator with stereo cameras and OpenCV's StereoSGBM was used to generate disparity maps. A physical rover built on Raspberry Pi 4 employed UniDepthV2 for monocular metric depth estimation and YOLO12n for real-time object detection. While stereo vision yielded higher accuracy in simulation, the monocular approach proved more robust and cost-effective in real-world deployment, achieving 0.1 FPS for depth and 10 FPS for detection.

Depth-Aware Rover: A Study of Edge AI and Monocular Vision for Real-World Implementation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理