Automatic Curriculum Learning for Driving Scenarios: Towards Robust and Efficient Reinforcement Learning

📄 arXiv: 2505.08264v2 📥 PDF

作者: Ahmed Abouelazm, Tim Weinstein, Tim Joseph, Philip Schörner, J. Marius Zöllner

分类: cs.RO, cs.AI

发布日期: 2025-05-13 (更新: 2025-07-11)

备注: Accepted in the 36th IEEE Intelligent Vehicles Symposium (IV 2025)


💡 一句话要点

提出基于自动课程学习的驾驶场景生成框架,提升强化学习自动驾驶的泛化性和效率。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 强化学习 课程学习 领域随机化 驾驶场景生成

📋 核心要点

  1. 现有强化学习自动驾驶训练依赖固定场景,泛化性差;领域随机化方差大,训练效率低。
  2. 提出自动课程学习框架,根据智能体能力动态生成驾驶场景,避免专家偏见,提升训练效率。
  3. 实验表明,该方法在不同交通密度下成功率分别提升9%和21%,并加速了收敛。

📝 摘要(中文)

本文旨在解决使用强化学习(RL)训练端到端自动驾驶代理所面临的挑战。传统的RL代理通常在固定的模拟场景和周围道路使用者的标称行为下进行训练,限制了其泛化能力和实际部署。领域随机化通过随机采样驾驶场景提供了一种潜在的解决方案,但由于训练场景之间的高方差,常常导致训练效率低下和次优策略。为了解决这些限制,我们提出了一种自动课程学习框架,该框架基于代理不断发展的能力动态生成具有自适应复杂性的驾驶场景。与手动设计的课程引入专家偏差和缺乏可扩展性不同,我们的框架包含一个“教师”,它可以根据驾驶场景的学习潜力(一种源自代理当前策略的以代理为中心的指标)自动生成和改变驾驶场景,从而消除了对专家设计的需求。该框架通过排除代理已经掌握或发现过于具有挑战性的场景来提高训练效率。我们在强化学习环境中评估了我们的框架,在该环境中,代理从相机图像中学习驾驶策略。与包括固定场景训练和领域随机化在内的基线方法相比,结果表明我们的方法可以增强泛化能力,实现更高的成功率:在低交通密度下+9%,在高交通密度下+21%,并且收敛速度更快,训练步骤更少。我们的发现突出了ACL在提高基于RL的自动驾驶代理的鲁棒性和效率方面的潜力。

🔬 方法详解

问题定义:论文旨在解决强化学习在自动驾驶中泛化能力不足的问题。现有方法,如固定场景训练,无法应对真实世界的多样性;领域随机化虽然增加了场景多样性,但由于场景难度差异过大,导致训练不稳定和效率低下。因此,需要一种能够根据智能体自身能力动态调整训练场景难度的方法,以提高训练效率和泛化能力。

核心思路:论文的核心思路是引入自动课程学习(Automatic Curriculum Learning, ACL)机制,模仿人类学习过程,由易到难地安排训练任务。通过一个“教师”模块,根据智能体的学习状态(例如,成功率、奖励等)动态生成和调整驾驶场景的难度,避免了人为设定的偏见,并能更有效地引导智能体学习。

技术框架:该框架包含两个主要组成部分:智能体(Agent)和教师(Teacher)。智能体负责与环境交互,学习驾驶策略。教师负责生成和调整驾驶场景。具体流程如下:1. 教师根据智能体的当前策略,生成一批驾驶场景。2. 智能体在这些场景中进行训练,并收集训练数据。3. 教师根据智能体在每个场景中的表现(例如,成功率、奖励等),评估该场景的学习潜力。4. 教师根据学习潜力,调整场景的参数(例如,交通密度、车辆速度等),生成新的场景。5. 重复步骤1-4,直到智能体达到预定的性能指标。

关键创新:该论文的关键创新在于提出了一个完全自动化的课程学习框架,无需人工干预即可生成和调整驾驶场景。与传统的课程学习方法相比,该方法避免了专家知识的依赖,并且能够更好地适应智能体的学习进度。此外,该框架使用以智能体为中心的指标(学习潜力)来评估场景的难度,能够更准确地反映智能体的学习需求。

关键设计:论文中,学习潜力被定义为智能体在特定场景下的预期收益。教师通过遗传算法来优化驾驶场景的参数,目标是最大化智能体的学习潜力。具体来说,教师维护一个场景池,并定期对池中的场景进行变异和交叉操作,生成新的场景。然后,教师使用智能体对这些新场景进行评估,并根据评估结果更新场景池。智能体使用深度强化学习算法(例如,DQN、PPO等)来学习驾驶策略。奖励函数的设计至关重要,需要能够有效地引导智能体学习安全和高效的驾驶行为。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在低交通密度和高交通密度场景下,分别比基线方法提高了9%和21%的成功率。同时,该方法还显著加快了训练的收敛速度,减少了训练所需的步骤。这些结果表明,该方法能够有效地提高强化学习自动驾驶代理的泛化能力和训练效率。

🎯 应用场景

该研究成果可应用于自动驾驶系统的训练和验证,提高自动驾驶在复杂交通环境下的安全性和可靠性。此外,该方法也可推广到其他机器人学习领域,例如机器人导航、操作等,具有广泛的应用前景和实际价值。未来,该方法有望加速自动驾驶技术的商业化落地,并为智能交通系统的发展做出贡献。

📄 摘要(原文)

This paper addresses the challenges of training end-to-end autonomous driving agents using Reinforcement Learning (RL). RL agents are typically trained in a fixed set of scenarios and nominal behavior of surrounding road users in simulations, limiting their generalization and real-life deployment. While domain randomization offers a potential solution by randomly sampling driving scenarios, it frequently results in inefficient training and sub-optimal policies due to the high variance among training scenarios. To address these limitations, we propose an automatic curriculum learning framework that dynamically generates driving scenarios with adaptive complexity based on the agent's evolving capabilities. Unlike manually designed curricula that introduce expert bias and lack scalability, our framework incorporates a ``teacher'' that automatically generates and mutates driving scenarios based on their learning potential -- an agent-centric metric derived from the agent's current policy -- eliminating the need for expert design. The framework enhances training efficiency by excluding scenarios the agent has mastered or finds too challenging. We evaluate our framework in a reinforcement learning setting where the agent learns a driving policy from camera images. Comparative results against baseline methods, including fixed scenario training and domain randomization, demonstrate that our approach leads to enhanced generalization, achieving higher success rates: +9% in low traffic density, +21% in high traffic density, and faster convergence with fewer training steps. Our findings highlight the potential of ACL in improving the robustness and efficiency of RL-based autonomous driving agents.