Design of Reward Function on Reinforcement Learning for Automated Driving
作者: Takeru Goto, Yuki Kizumi, Shun Iwasaki
分类: cs.RO
发布日期: 2025-03-20
备注: Accepted in IFAC World Congress 2023, 6 pages, 9 figures
期刊: IFAC-PapersOnLine, Volume 56, Issue 2, 2023, Pages 7948-7953
DOI: 10.1016/j.ifacol.2023.10.902
💡 一句话要点
针对自动驾驶,提出一种基于强化学习的奖励函数设计方案,兼顾驾驶状态与行为评估。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自动驾驶 强化学习 奖励函数设计 异步优势Actor-Critic 智能体
📋 核心要点
- 传统强化学习奖励函数侧重于目标达成,忽略了自动驾驶中过程的重要性,如安全性、舒适性等。
- 该论文提出一种新的奖励函数设计方案,同时评估驾驶状态和行为,以优化驾驶过程。
- 实验表明,该方案在模拟电路驾驶和高速公路巡航中,能够获得更合理的驾驶行为,如弯道内侧行驶和适当的变道策略。
📝 摘要(中文)
本文提出了一种奖励函数设计方案,该方案持续评估驾驶状态和行为,以将强化学习应用于自动驾驶。在强化学习领域,奖励函数通常通过为成功分配+1,为失败分配-1等值来评估目标是否实现。这种类型的奖励函数可能获得实现目标的策略,但未评估达到目标的过程。然而,到达目的地的过程对于自动驾驶至关重要,例如保持速度、避免风险、保持与其他车辆的距离、保持乘客舒适度。因此,所提出的方案设计的奖励函数通过评估驾驶过程来适用于自动驾驶。在模拟电路驾驶和高速公路巡航中证明了所提出方案的效果。使用异步优势Actor-Critic算法,并在某些情况下训练模型以进行泛化。结果表明,获得了适当的驾驶位置,例如在弯道内侧行驶,以及快速减速以沿急弯转弯。在高速公路巡航中,自车能够在存在其他车辆的环境中变换车道,并进行适当的减速以避免追上前车,并进行加速以使后车不会追上自车。
🔬 方法详解
问题定义:自动驾驶任务中,传统的强化学习方法通常只关注最终目标是否达成(例如,是否到达目的地),而忽略了驾驶过程中的安全性、舒适性和效率等因素。现有的奖励函数设计无法有效引导智能体学习到符合人类驾驶习惯的策略,例如平稳的加减速、合理的车距保持等。因此,如何设计一个能够综合考虑驾驶过程的奖励函数是亟待解决的问题。
核心思路:本文的核心思路是设计一个能够持续评估驾驶状态和行为的奖励函数。该奖励函数不仅考虑最终目标是否达成,还考虑了车辆的速度、与其他车辆的距离、乘客的舒适度等因素。通过对驾驶过程中的每一个步骤进行评估,可以引导智能体学习到更加安全、舒适和高效的驾驶策略。
技术框架:本文采用异步优势Actor-Critic (A3C) 算法作为强化学习框架。整体流程如下:首先,定义包含驾驶状态和行为的奖励函数;然后,使用A3C算法训练智能体,使其学习到最大化累积奖励的策略;最后,在模拟环境中测试智能体的性能。A3C算法包含一个Actor网络和一个Critic网络,Actor网络负责输出动作策略,Critic网络负责评估当前状态的价值。
关键创新:本文的关键创新在于奖励函数的设计。传统的奖励函数通常只关注最终目标是否达成,而本文提出的奖励函数则综合考虑了驾驶过程中的多个因素。这种设计使得智能体能够学习到更加符合人类驾驶习惯的策略。此外,本文还针对自动驾驶任务的特点,对A3C算法进行了优化,提高了训练效率和稳定性。
关键设计:奖励函数的设计是本文的关键。奖励函数由多个部分组成,包括:目标达成奖励、速度奖励、距离奖励、舒适度奖励等。目标达成奖励用于鼓励智能体到达目的地;速度奖励用于鼓励智能体保持合理的速度;距离奖励用于鼓励智能体与其他车辆保持适当的距离;舒适度奖励用于鼓励智能体进行平稳的加减速。这些奖励项的权重需要根据具体的任务进行调整,以达到最佳的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方案在模拟电路驾驶中,智能体能够学习到在弯道内侧行驶和快速减速转弯等策略。在高速公路巡航中,智能体能够学习到在存在其他车辆的环境中进行适当的变道,并保持与前后车辆的安全距离。这些结果表明,该方案能够有效地提高自动驾驶车辆的驾驶性能。
🎯 应用场景
该研究成果可应用于自动驾驶系统的开发,提升自动驾驶车辆的安全性、舒适性和效率。通过优化奖励函数设计,可以使自动驾驶车辆在各种复杂交通场景中做出更合理的决策,例如在拥堵路段进行平稳的变道,在高速公路上保持安全的车距等。此外,该方法还可以推广到其他机器人控制领域,例如无人机、无人船等。
📄 摘要(原文)
This paper proposes a design scheme of reward function that constantly evaluates both driving states and actions for applying reinforcement learning to automated driving. In the field of reinforcement learning, reward functions often evaluate whether the goal is achieved by assigning values such as +1 for success and -1 for failure. This type of reward function can potentially obtain a policy that achieves the goal, but the process by which the goal is reached is not evaluated. However, process to reach a destination is important for automated driving, such as keeping velocity, avoiding risk, retaining distance from other cars, keeping comfortable for passengers. Therefore, the reward function designed by the proposed scheme is suited for automated driving by evaluating driving process. The effects of the proposed scheme are demonstrated on simulated circuit driving and highway cruising. Asynchronous Advantage Actor-Critic is used, and models are trained under some situations for generalization. The result shows that appropriate driving positions are obtained, such as traveling on the inside of corners, and rapid deceleration to turn along sharp curves. In highway cruising, the ego vehicle becomes able to change lane in an environment where there are other vehicles with suitable deceleration to avoid catching up to a front vehicle, and acceleration so that a rear vehicle does not catch up to the ego vehicle.