UAV See, UGV Do: Aerial Imagery and Virtual Teach Enabling Zero-Shot Ground Vehicle Repeat

📄 arXiv: 2505.16912v2 📥 PDF

作者: Desiree Fisker, Alexander Krawciw, Sven Lilge, Melissa Greeff, Timothy D. Barfoot

分类: cs.RO

发布日期: 2025-05-22 (更新: 2025-07-30)

备注: 8 pages, 8 figures, accepted to IROS 2025


💡 一句话要点

提出VirT&R,利用无人机影像和NeRF实现零样本地面车辆自主重复导航。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 无人地面车辆 自主导航 神经辐射场 虚拟示教 零样本学习

📋 核心要点

  1. 现有地面车辆自主导航依赖人工示教,耗时耗力,且难以在新环境中快速部署。
  2. VirT&R利用无人机航拍图像构建NeRF环境模型,在虚拟环境中示教路径,实现零样本自主导航。
  3. 实验表明,VirT&R在路径跟踪精度上与传统LT&R相当,无需人工示教,降低了部署成本。

📝 摘要(中文)

本文提出了一种名为虚拟示教与重复(VirT&R)的框架,它是示教与重复(T&R)框架的扩展,能够在无GPS环境下,实现无人地面车辆(UGV)在未曾探索过的环境中进行零样本自主导航。VirT&R利用为目标环境捕获的航拍图像训练神经辐射场(NeRF)模型,从而提取密集的点云和照片纹理网格。NeRF网格用于创建环境的高保真模拟,以便驾驶UGV来虚拟地定义期望的路径。然后,通过使用沿路径关联的NeRF生成的点云子图以及现有的激光雷达示教与重复(LT&R)框架,可以在实际目标环境中执行任务。我们在超过12公里的自主驾驶数据上对VirT&R的可重复性进行了基准测试,使用物理标记来获得sim-to-real的横向路径跟踪误差,并将其与LT&R进行比较。VirT&R在两个不同环境中实现了19.5厘米和18.4厘米的均方根误差(RMSE),略小于用于测试的机器人上的一个轮胎宽度(24厘米),相应的最大误差为39.4厘米和47.6厘米。这仅使用NeRF导出的示教地图完成,表明VirT&R具有与LT&R相似的闭环路径跟踪性能,但不需要人工在实际环境中手动示教UGV路径。

🔬 方法详解

问题定义:现有的地面车辆自主导航方法,如激光雷达示教与重复(LT&R),通常需要在目标环境中手动驾驶车辆进行示教,记录路径和环境信息。这种方法耗时耗力,尤其是在大型或复杂环境中。此外,当环境发生变化时,需要重新进行示教,缺乏灵活性。因此,如何在未知或难以进入的环境中实现地面车辆的快速自主导航是一个重要的挑战。

核心思路:VirT&R的核心思路是利用无人机获取目标环境的航拍图像,并使用这些图像训练一个神经辐射场(NeRF)模型。NeRF能够生成环境的密集点云和照片纹理网格,从而创建一个高保真度的虚拟环境。然后,在虚拟环境中,操作员可以驾驶UGV并定义期望的路径。最后,将虚拟路径转换为实际环境中的导航指令,实现零样本自主导航。

技术框架:VirT&R的整体框架包括以下几个主要阶段:1) 航拍图像采集:使用无人机获取目标环境的航拍图像。2) NeRF模型训练:利用航拍图像训练NeRF模型,生成环境的密集点云和照片纹理网格。3) 虚拟环境示教:在NeRF生成的虚拟环境中,操作员驾驶UGV并定义期望的路径。4) 路径转换与执行:将虚拟路径转换为实际环境中的导航指令,并使用现有的LT&R框架在实际环境中执行任务。

关键创新:VirT&R的关键创新在于利用NeRF模型从航拍图像中生成高保真度的虚拟环境,从而实现了零样本的地面车辆自主导航。与传统的LT&R方法相比,VirT&R无需在实际环境中进行手动示教,大大降低了部署成本和时间。此外,VirT&R还能够适应环境的变化,只需重新训练NeRF模型即可。

关键设计:VirT&R的关键设计包括:1) NeRF模型选择:选择合适的NeRF模型,以保证生成虚拟环境的质量和精度。2) 虚拟环境示教界面:设计友好的虚拟环境示教界面,方便操作员定义期望的路径。3) 路径转换算法:设计高效的路径转换算法,将虚拟路径转换为实际环境中的导航指令。4) 与LT&R框架的集成:将VirT&R与现有的LT&R框架集成,利用LT&R框架的成熟技术实现路径跟踪和导航。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VirT&R在两个不同的环境中实现了19.5厘米和18.4厘米的均方根误差(RMSE),略小于用于测试的机器人上的一个轮胎宽度(24厘米),相应的最大误差为39.4厘米和47.6厘米。这些结果表明,VirT&R具有与LT&R相似的闭环路径跟踪性能,但无需人工在实际环境中手动示教UGV路径,验证了该方法的有效性和实用性。

🎯 应用场景

VirT&R技术可应用于多种场景,如灾后救援、农业巡检、物流运输等。在灾后救援中,无人机可以快速获取灾区图像,生成虚拟环境,帮助救援人员规划路线。在农业巡检中,可以利用该技术实现农田的自动巡检和作物生长监测。在物流运输中,可以实现无人驾驶车辆在复杂环境下的自主导航,提高运输效率。未来,该技术有望进一步发展,实现更高级别的自主导航和智能化应用。

📄 摘要(原文)

This paper presents Virtual Teach and Repeat (VirT&R): an extension of the Teach and Repeat (T&R) framework that enables GPS-denied, zero-shot autonomous ground vehicle navigation in untraversed environments. VirT&R leverages aerial imagery captured for a target environment to train a Neural Radiance Field (NeRF) model so that dense point clouds and photo-textured meshes can be extracted. The NeRF mesh is used to create a high-fidelity simulation of the environment for piloting an unmanned ground vehicle (UGV) to virtually define a desired path. The mission can then be executed in the actual target environment by using NeRF-generated point cloud submaps associated along the path and an existing LiDAR Teach and Repeat (LT&R) framework. We benchmark the repeatability of VirT&R on over 12 km of autonomous driving data using physical markings that allow a sim-to-real lateral path-tracking error to be obtained and compared with LT&R. VirT&R achieved measured root mean squared errors (RMSE) of 19.5 cm and 18.4 cm in two different environments, which are slightly less than one tire width (24 cm) on the robot used for testing, and respective maximum errors were 39.4 cm and 47.6 cm. This was done using only the NeRF-derived teach map, demonstrating that VirT&R has similar closed-loop path-tracking performance to LT&R but does not require a human to manually teach the path to the UGV in the actual environment.