Automated Driving with Evolution Capability: A Reinforcement Learning Method with Monotonic Performance Enhancement
作者: Jia Hu, Xuerun Yan, Tian Xu, Haoran Wang
分类: eess.SY
发布日期: 2024-12-14
备注: 24 pages, 16figures
💡 一句话要点
提出基于高置信度策略提升的强化学习自动驾驶方案,实现单调性能增强。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 自动驾驶 策略优化 单调性能提升 高置信度 决策规划
📋 核心要点
- 传统强化学习在自动驾驶中面临性能不稳定的问题,更新策略可能导致性能下降。
- HCPI-RL通过设计新的策略更新范式,保证新策略性能始终优于旧策略,实现单调性能提升。
- 实验表明,HCPI-RL在多种场景下均优于PPO和规则方法,提升了自动驾驶的效率和安全性。
📝 摘要(中文)
本文提出了一种基于高置信度策略提升强化学习(HCPI-RL)的规划器,旨在实现自动驾驶的单调演进。传统强化学习方法常面临性能风险,更新后的策略可能无法获得性能提升,甚至导致性能下降。为了解决这一挑战,本文设计了一种新的强化学习策略更新范式,使新学习的策略性能始终超越之前的策略,从而实现单调性能增强。该HCPI-RL规划器具有以下特点:i) 具有单调性能增强的进化自动驾驶;ii) 能够处理紧急情况;iii) 具有增强的决策最优性。结果表明,与PPO规划器相比,所提出的HCPI-RL规划器在紧急切入场景中将策略回报提高了44.7%,在紧急制动场景中提高了108.2%,在日常巡航场景中提高了64.4%。采用所提出的规划器,自动驾驶效率比PPO规划器提高了19.2%,比基于规则的规划器提高了30.7%。
🔬 方法详解
问题定义:传统强化学习方法在自动驾驶中的应用,常常面临性能不稳定的问题。由于策略更新的不确定性,新策略的性能可能不如旧策略,甚至出现性能恶化,这在安全攸关的自动驾驶领域是不可接受的。因此,如何保证策略更新的单调性能提升,是本文要解决的关键问题。
核心思路:本文的核心思路是设计一种高置信度的策略提升方法,确保每次策略更新都能带来性能的提升。通过引入置信度约束,限制策略更新的幅度,避免因过度探索而导致的性能下降。同时,鼓励策略向更有利的方向探索,从而实现单调的性能提升。
技术框架:HCPI-RL规划器的整体框架基于强化学习的Actor-Critic架构。Actor负责生成驾驶策略,Critic负责评估策略的价值。在策略更新阶段,HCPI-RL引入了置信度约束,限制Actor的更新幅度。同时,Critic会评估新策略的性能,只有当新策略的性能高于旧策略时,才会接受本次更新。该框架包含环境交互模块、策略评估模块、策略更新模块和置信度约束模块。
关键创新:本文最重要的技术创新在于提出了高置信度策略提升的策略更新范式。与传统的策略梯度方法不同,HCPI-RL在策略更新过程中,不仅考虑了策略梯度,还考虑了策略更新的置信度。通过引入置信度约束,避免了因过度探索而导致的性能下降,从而保证了策略更新的单调性能提升。
关键设计:HCPI-RL的关键设计包括置信度约束的设定和策略评估指标的选择。置信度约束通过限制策略更新的KL散度来实现,KL散度的大小决定了策略更新的幅度。策略评估指标则采用累积回报作为评估标准,只有当新策略的累积回报高于旧策略时,才会接受本次更新。此外,损失函数的设计也至关重要,需要平衡策略梯度和置信度约束之间的关系。
📊 实验亮点
实验结果表明,HCPI-RL规划器在紧急切入、紧急制动和日常巡航等多种场景下,均优于PPO规划器和基于规则的规划器。具体而言,HCPI-RL在紧急切入场景中将策略回报提高了44.7%,在紧急制动场景中提高了108.2%,在日常巡航场景中提高了64.4%。此外,自动驾驶效率比PPO规划器提高了19.2%,比基于规则的规划器提高了30.7%。
🎯 应用场景
该研究成果可应用于各种自动驾驶场景,包括城市道路、高速公路和越野环境。通过保证策略的单调性能提升,可以提高自动驾驶系统的安全性和可靠性。此外,该方法还可以应用于其他需要持续优化的控制系统,例如机器人导航、智能制造等。
📄 摘要(原文)
Reinforcement Learning (RL) offers a promising solution to enable evolutionary automated driving. However, the conventional RL method is always concerned with risk performance. The updated policy may not obtain a performance enhancement, even leading to performance deterioration. To address this challenge, this research proposes a High Confidence Policy Improvement Reinforcement Learning-based (HCPI-RL) planner. It is intended to achieve the monotonic evolution of automated driving. A novel RL policy update paradigm is designed to enable the newly learned policy performance consistently surpass that of previous policies, which is deemed as monotonic performance enhancement. Hence, the proposed HCPI-RL planner has the following features: i) Evolutionary automated driving with monotonic performance enhancement; ii) With the capability of handling scenarios with emergency; iii) With enhanced decision-making optimality. Results demonstrate that the proposed HCPI-RL planner enhances the policy return by 44.7% in emergent cut-in scenarios, 108.2% in emergent braking scenarios, and 64.4% in daily cruising scenarios, compared to the PPO planner. Adopting the proposed planner, automated driving efficiency is enhanced by 19.2% compared to the PPO planner, and by 30.7% compared to the rule-based planner.