EasyChauffeur: A Baseline Advancing Simplicity and Efficiency on Waymax

📄 arXiv: 2408.16375v1 📥 PDF

作者: Lingyu Xiao, Jiang-Jiang Liu, Xiaoqing Ye, Wankou Yang, Jingdong Wang

分类: cs.RO

发布日期: 2024-08-29


💡 一句话要点

EasyChauffeur:Waymax上兼顾简洁与效率的自动驾驶基线方案

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 强化学习 模仿学习 数据效率 鲁棒性评估 Waymax SNE-Sampling

📋 核心要点

  1. 现有基于深度学习的自动驾驶规划器过度关注复杂的网络设计,而忽略了训练策略、数据效率和评估鲁棒性等基本要素。
  2. EasyChauffeur通过结合On-policy强化学习和SNE-Sampling数据采样方法,显著提升了数据效率和规划性能。
  3. 提出了Ego-Shifting评估方法,用于更准确地评估自动驾驶规划器在初始状态扰动下的鲁棒性。

📝 摘要(中文)

本文提出EasyChauffeur,一个在GPU加速模拟器Waymax上可复现且有效的模仿学习(IL)和强化学习(RL)自动驾驶规划器。研究表明,结合On-policy RL能显著提升性能和数据效率。为进一步提高效率,提出了SNE-Sampling方法,通过选择性地从编码器的潜在空间中采样数据,大幅提升EasyChauffeur在RL中的性能。此外,本文指出当前评估方法的不足,即由于自动驾驶车辆初始状态的微小变化导致性能显著下降,无法准确评估不同规划器的鲁棒性。为此,提出了Ego-Shifting,一种用于评估规划器鲁棒性的新评估设置。研究结果表明,应该将重点从网络架构转移到包含训练策略、数据效率和鲁棒评估方法的整体方法。

🔬 方法详解

问题定义:现有自动驾驶规划方法过度依赖复杂的网络结构设计,忽略了训练策略、数据效率和评估鲁棒性等关键因素。此外,现有的评估方法无法准确评估规划器在实际场景中可能遇到的初始状态扰动下的鲁棒性。

核心思路:本文的核心思路是回归自动驾驶规划问题的本质,关注训练策略、数据效率和评估鲁棒性,而不是一味追求复杂的网络结构。通过结合On-policy强化学习和高效的数据采样方法,提升规划器的性能和数据效率。同时,提出新的评估方法来更准确地评估规划器的鲁棒性。

技术框架:EasyChauffeur的整体框架包含以下几个主要模块:1) 感知模块:用于从Waymax模拟器中获取环境信息;2) 编码器:将环境信息编码为潜在空间表示;3) 规划器:基于潜在空间表示生成车辆的行驶轨迹;4) 强化学习模块:使用On-policy RL优化规划器的策略;5) SNE-Sampling模块:从编码器的潜在空间中选择性地采样数据,用于强化学习训练。

关键创新:本文的关键创新在于:1) 强调了训练策略和数据效率的重要性,并提出了SNE-Sampling方法来提升数据效率;2) 提出了Ego-Shifting评估方法,用于更准确地评估规划器的鲁棒性。SNE-Sampling与传统数据采样方法的本质区别在于,它不是随机采样数据,而是根据编码器潜在空间的分布,选择性地采样对训练更有价值的数据。

关键设计:SNE-Sampling的关键设计在于如何衡量数据的价值。本文使用了一种基于自编码器的重构误差来衡量数据的价值,重构误差越大,说明该数据包含的信息越多,对训练的价值也越大。在强化学习训练中,使用了PPO算法作为On-policy RL算法。Ego-Shifting评估方法通过在评估过程中对自动驾驶车辆的初始状态进行微小的扰动,来模拟实际场景中可能遇到的初始状态不确定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EasyChauffeur在Waymax模拟器上取得了显著的性能提升。通过结合On-policy RL和SNE-Sampling,EasyChauffeur的数据效率得到了大幅提升,在相同数据量下,性能优于传统的模仿学习方法。Ego-Shifting评估结果表明,EasyChauffeur在初始状态扰动下表现出更强的鲁棒性。

🎯 应用场景

EasyChauffeur的研究成果可以应用于自动驾驶系统的开发和测试,特别是在数据效率和鲁棒性方面。该方法可以帮助开发者更高效地训练自动驾驶模型,并更准确地评估模型的性能和鲁棒性。此外,Ego-Shifting评估方法可以用于评估不同自动驾驶系统在实际场景中的表现,从而促进自动驾驶技术的安全可靠发展。

📄 摘要(原文)

Recent advancements in deep-learning-based driving planners have primarily focused on elaborate network engineering, yielding limited improvements. This paper diverges from conventional approaches by exploring three fundamental yet underinvestigated aspects: training policy, data efficiency, and evaluation robustness. We introduce EasyChauffeur, a reproducible and effective planner for both imitation learning (IL) and reinforcement learning (RL) on Waymax, a GPU-accelerated simulator. Notably, our findings indicate that the incorporation of on-policy RL significantly boosts performance and data efficiency. To further enhance this efficiency, we propose SNE-Sampling, a novel method that selectively samples data from the encoder's latent space, substantially improving EasyChauffeur's performance with RL. Additionally, we identify a deficiency in current evaluation methods, which fail to accurately assess the robustness of different planners due to significant performance drops from minor changes in the ego vehicle's initial state. In response, we propose Ego-Shifting, a new evaluation setting for assessing planners' robustness. Our findings advocate for a shift from a primary focus on network architectures to adopting a holistic approach encompassing training strategies, data efficiency, and robust evaluation methods.