High-Speed Cornering Control and Real-Vehicle Deployment for Autonomous Electric Vehicles

📄 arXiv: 2411.11762v2 📥 PDF

作者: Shiyue Zhao, Junzhi Zhang, Neda Masoud, Yuhong Jiang, Heye Huang, Tao Liu

分类: cs.RO, eess.SY

发布日期: 2024-11-18 (更新: 2024-11-21)

备注: In the process of being submitted to the Journal of IEEE Transactions on Industrial Electronics


💡 一句话要点

提出基于强化学习和模型预测控制融合的高速漂移动作自主电动车控制框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 强化学习 模型预测控制 漂移动作 车辆控制

📋 核心要点

  1. 现有强化学习方法在自动驾驶漂移动作控制中,存在模拟环境与真实环境差异导致部署困难的问题。
  2. 论文提出融合轨迹优化与漂移动作的控制框架,利用强化学习生成动作,模型预测控制进行精确跟踪。
  3. 通过消费级电动汽车的实车测试,验证了所提方法在漂移U型转弯和漂移直角转弯中的有效性。

📝 摘要(中文)

高速过弯时执行漂移动作对自动驾驶车辆提出了重大挑战,但它有可能最大限度地缩短转弯时间并增强驾驶动力。虽然强化学习(RL)在模拟环境中显示出良好的效果,但模拟与真实世界条件之间的差异限制了其在实际中的部署。本研究提出了一种将轨迹优化与漂移动作相结合的创新控制框架,旨在提高算法对真实车辆实施的适应性。我们利用基于贝塞尔曲线的预轨迹优化来增强奖励,并通过双延迟深度确定性策略梯度(TD3)在模拟环境中优化控制器。在实际部署中,我们实现了一种混合RL-MPC融合机制,其中TD3导出的动作作为模型预测控制器(MPC)的主要输入。这种集成能够精确地实时跟踪最优轨迹,MPC提供修正输入以弥合模拟和现实之间的差距。该方法的有效性通过消费级电动汽车的真实车辆测试得到验证,重点是漂移U型转弯和漂移直角转弯。这些真实车辆测试的控制结果在论文中有详细记录,并附有补充视频证据。值得注意的是,本研究是首次在消费级电动汽车上部署和应用基于RL的瞬态漂移过弯算法。

🔬 方法详解

问题定义:论文旨在解决自动驾驶车辆在高速过弯时,如何有效执行漂移动作以缩短转弯时间并提升驾驶动态的问题。现有方法,特别是纯粹依赖强化学习的方法,在模拟环境中表现良好,但由于模拟环境与真实环境存在差异,导致在真实车辆上的部署效果不佳,难以实现精确控制。

核心思路:论文的核心思路是将强化学习(RL)与模型预测控制(MPC)相结合,形成一种混合控制框架。强化学习负责生成粗略的漂移动作,而模型预测控制负责精确地跟踪由强化学习生成的轨迹,并对模拟与现实之间的差异进行补偿。这种结合既利用了强化学习在复杂环境中的学习能力,又利用了模型预测控制的精确控制能力。

技术框架:整体框架包含以下几个主要模块:1) 基于贝塞尔曲线的预轨迹优化模块,用于生成初始轨迹,并为强化学习提供更好的奖励信号。2) 基于TD3(Twin Delayed Deep Deterministic Policy Gradient)的强化学习控制器,用于在模拟环境中学习漂移动作策略。3) 模型预测控制器(MPC),用于在真实车辆上精确跟踪由强化学习生成的轨迹,并对环境扰动和模型误差进行补偿。4) 混合RL-MPC融合机制,将TD3的输出作为MPC的参考输入。

关键创新:该论文的关键创新在于将强化学习与模型预测控制进行融合,并成功地将基于强化学习的漂移动作控制算法部署到真实的消费级电动汽车上。之前的研究大多集中在模拟环境中,或者使用较为简单的控制策略。该论文提出的混合控制框架能够有效地弥合模拟与现实之间的差距,实现精确的漂移动作控制。

关键设计:在强化学习部分,使用了TD3算法,这是一种off-policy的actor-critic算法,能够有效地处理连续动作空间。奖励函数的设计至关重要,论文利用基于贝塞尔曲线的预轨迹优化来增强奖励信号,鼓励智能体学习更优的漂移动作。在模型预测控制部分,需要精确的车辆动力学模型,并根据实际车辆的参数进行调整。混合RL-MPC融合机制的关键在于如何将TD3的输出有效地转化为MPC的参考输入,论文采用了一种加权融合的方法,根据车辆的状态动态调整RL和MPC的权重。

📊 实验亮点

该研究首次在消费级电动汽车上成功部署了基于强化学习的瞬态漂移过弯算法。通过实车测试,验证了所提出的混合RL-MPC控制框架在漂移U型转弯和漂移直角转弯中的有效性。虽然论文中没有给出具体的性能数据,但视频证据表明,该算法能够实现稳定、精确的漂移动作控制,显著提升车辆的操控性能。

🎯 应用场景

该研究成果可应用于自动驾驶车辆的高级驾驶辅助系统(ADAS),提升车辆在紧急情况下的避障能力和操控性能。例如,在高速行驶时,车辆可以通过漂移动作快速避开障碍物或调整行驶方向。此外,该技术还可应用于赛车运动和特种车辆的控制,提高车辆的运动性能和驾驶乐趣。未来,该研究或可扩展到其他类型的车辆和更复杂的驾驶场景。

📄 摘要(原文)

Executing drift maneuvers during high-speed cornering presents significant challenges for autonomous vehicles, yet offers the potential to minimize turning time and enhance driving dynamics. While reinforcement learning (RL) has shown promising results in simulated environments, discrepancies between simulations and real-world conditions have limited its practical deployment. This study introduces an innovative control framework that integrates trajectory optimization with drift maneuvers, aiming to improve the algorithm's adaptability for real-vehicle implementation. We leveraged Bezier-based pre-trajectory optimization to enhance rewards and optimize the controller through Twin Delayed Deep Deterministic Policy Gradient (TD3) in a simulated environment. For real-world deployment, we implement a hybrid RL-MPC fusion mechanism, , where TD3-derived maneuvers serve as primary inputs for a Model Predictive Controller (MPC). This integration enables precise real-time tracking of the optimal trajectory, with MPC providing corrective inputs to bridge the gap between simulation and reality. The efficacy of this method is validated through real-vehicle tests on consumer-grade electric vehicles, focusing on drift U-turns and drift right-angle turns. The control outcomes of these real-vehicle tests are thoroughly documented in the paper, supported by supplementary video evidence (https://youtu.be/5wp67FcpfL8). Notably, this study is the first to deploy and apply an RL-based transient drift cornering algorithm on consumer-grade electric vehicles.