Learning autonomous driving from aerial imagery

📄 arXiv: 2410.14177v1 📥 PDF

作者: Varun Murali, Guy Rosman, Sertac Karaman, Daniela Rus

分类: cs.RO, cs.CV

发布日期: 2024-10-18

备注: Presented at IROS 2024


💡 一句话要点

提出基于NeRF的端到端自动驾驶学习方法,仅使用航拍图像。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 自动驾驶 神经辐射场 NeRF 视图合成 模仿学习 航拍图像 端到端学习

📋 核心要点

  1. 传统视觉模拟器构建成本高昂,数据收集困难,且依赖人工干预,限制了自动驾驶策略的学习。
  2. 利用NeRF作为中间表示,从航拍图像合成地面车辆视角,实现紧凑表示和参数优化,降低模拟器构建成本。
  3. 在定制迷你城市环境中,通过模仿学习策略部署,验证了该方法在机器人汽车上的有效性,并成功实现了真实世界中的车辆重定位。

📝 摘要(中文)

本文研究了仅从航拍图像中学习地面车辆端到端感知控制的问题。摄影测量模拟器可以通过将预先生成的资源转换为新的视角来合成新的视图。然而,它们具有巨大的设置成本,需要仔细的数据收集,并且通常需要人工努力来创建可用的模拟器。我们使用神经辐射场(NeRF)作为中间表示,从地面车辆的角度合成新的视图。这些新的视点可以用于多个下游自主导航应用。在这项工作中,我们通过应用训练策略,从图像和深度数据进行端到端学习,来展示新视图合成的效用。在传统的实到模拟到实的框架中,收集的数据将被转换为视觉模拟器,然后可以用于生成新的视图。相比之下,使用NeRF允许紧凑的表示,并且能够在环境中收集更多数据时优化视觉模拟器的参数。我们通过在机器人汽车上部署模仿策略,在一个定制的迷你城市环境中展示了我们方法的有效性。此外,我们还考虑了地点定位的任务,并证明我们的方法能够在真实世界中重新定位汽车。

🔬 方法详解

问题定义:论文旨在解决仅使用航拍图像训练自动驾驶车辆的端到端感知控制策略的问题。现有方法依赖于耗时且昂贵的摄影测量模拟器,这些模拟器需要大量人工干预来创建和维护,限制了数据生成和策略学习的效率。

核心思路:论文的核心思路是利用神经辐射场(NeRF)作为中间表示,将航拍图像转换为地面车辆视角的图像。NeRF能够以紧凑的方式表示场景,并且可以通过优化NeRF的参数来改进视图合成的质量,从而避免了传统模拟器构建的复杂性和高成本。

技术框架:该方法主要包含以下几个阶段:1) 使用航拍图像训练NeRF模型,使其能够表示场景的三维结构和外观。2) 从NeRF模型中合成地面车辆视角的图像和深度数据。3) 使用合成的数据训练自动驾驶策略,例如模仿学习策略。4) 在真实环境中部署训练好的策略,并进行车辆重定位等任务。

关键创新:该方法最重要的创新点在于使用NeRF作为视觉模拟器的替代方案。与传统的摄影测量模拟器相比,NeRF具有更紧凑的表示、更低的构建成本和更强的优化能力。此外,该方法实现了从航拍图像到地面车辆控制的端到端学习,避免了中间环节的人工干预。

关键设计:论文中使用了标准的NeRF架构,并针对自动驾驶任务进行了优化。损失函数包括图像重建损失和深度一致性损失,以提高合成图像的质量。在策略学习方面,使用了模仿学习方法,通过模仿人类驾驶员的行为来训练自动驾驶策略。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在定制的迷你城市环境中进行了实验验证。实验结果表明,使用NeRF合成的图像训练的自动驾驶策略能够在真实环境中成功部署,并实现了车辆的重定位。虽然论文中没有给出具体的性能数据,但实验结果证明了该方法的可行性和有效性。

🎯 应用场景

该研究成果可应用于自动驾驶车辆的训练和测试,尤其是在缺乏高质量地面图像或构建详细三维地图成本过高的情况下。此外,该方法还可以用于增强现实、虚拟现实等领域,通过合成新的视角来改善用户体验。未来,该技术有望降低自动驾驶研发成本,加速自动驾驶技术的普及。

📄 摘要(原文)

In this work, we consider the problem of learning end to end perception to control for ground vehicles solely from aerial imagery. Photogrammetric simulators allow the synthesis of novel views through the transformation of pre-generated assets into novel views.However, they have a large setup cost, require careful collection of data and often human effort to create usable simulators. We use a Neural Radiance Field (NeRF) as an intermediate representation to synthesize novel views from the point of view of a ground vehicle. These novel viewpoints can then be used for several downstream autonomous navigation applications. In this work, we demonstrate the utility of novel view synthesis though the application of training a policy for end to end learning from images and depth data. In a traditional real to sim to real framework, the collected data would be transformed into a visual simulator which could then be used to generate novel views. In contrast, using a NeRF allows a compact representation and the ability to optimize over the parameters of the visual simulator as more data is gathered in the environment. We demonstrate the efficacy of our method in a custom built mini-city environment through the deployment of imitation policies on robotic cars. We additionally consider the task of place localization and demonstrate that our method is able to relocalize the car in the real world.