Reference-Free Formula Drift with Reinforcement Learning: From Driving Data to Tire Energy-Inspired, Real-World Policies

📄 arXiv: 2410.20990v1 📥 PDF

作者: Franck Djeumou, Michael Thompson, Makoto Suminaka, John Subosits

分类: cs.RO, cs.LG, eess.SY

发布日期: 2024-10-28

备注: Initial submission to ICRA 2025


💡 一句话要点

提出基于强化学习的无参考公式漂移策略,实现真实车辆的轮胎能量优化控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 漂移控制 车辆动力学 轮胎能量吸收 自动驾驶 零样本学习 神经随机微分方程

📋 核心要点

  1. 现有自动驾驶在恶劣条件下或避碰时缺乏灵活性,需要车辆具备受控的过度转向能力,即漂移。
  2. 论文提出一种基于强化学习的漂移策略,利用轮胎能量吸收概念,使车辆在复杂环境中自主漂移并保持在赛道内。
  3. 实验表明,该方法在真实车辆上实现了零样本部署,能够以较低的跟踪误差和较高的侧滑角平稳漂移。

📝 摘要(中文)

本文研究了实时漂移策略,旨在无需昂贵的轨迹优化,即可将车辆控制到所需位置。为此,设计了一种基于强化学习的智能体,该智能体利用轮胎能量吸收的概念,自主地在不断变化和复杂的航路点配置中漂移,同时安全地保持在赛道范围内。通过在基于预先收集的驾驶数据学习到的神经随机微分方程车辆模型之上构建的仿真环境中训练智能体,实现了在真实车辆上的零样本部署。在丰田GR Supra和雷克萨斯LC 500上的实验表明,该智能体能够平稳地漂移通过不同的航路点配置,跟踪误差低至10厘米,同时稳定地将车辆推至高达63°的侧滑角。

🔬 方法详解

问题定义:现有方法通常依赖于轨迹优化,计算成本高昂,难以实时部署。此外,在复杂环境和动态变化的情况下,预定义的轨迹可能无法适应。因此,需要一种能够实时生成漂移动作,并且能够适应环境变化的控制策略。

核心思路:论文的核心思路是利用强化学习训练一个智能体,使其能够根据当前车辆状态和环境信息,实时决策最佳的漂移动作。智能体通过最大化奖励函数来学习漂移策略,奖励函数的设计基于轮胎能量吸收的概念,鼓励智能体在安全范围内进行有效的漂移。

技术框架:整体框架包括三个主要部分:1) 车辆动力学模型:使用神经随机微分方程(NSDE)从真实驾驶数据中学习车辆的动力学模型,用于仿真环境的构建。2) 强化学习智能体:使用深度强化学习算法(具体算法未知)训练智能体,智能体接收车辆状态和环境信息作为输入,输出控制指令。3) 奖励函数设计:基于轮胎能量吸收设计奖励函数,鼓励智能体在赛道范围内进行有效的漂移,同时惩罚超出安全范围的行为。

关键创新:该方法的主要创新在于:1) 无参考轨迹:不需要预先定义的轨迹,智能体能够根据环境实时生成漂移动作。2) 轮胎能量吸收:利用轮胎能量吸收的概念设计奖励函数,引导智能体学习有效的漂移策略。3) 零样本部署:通过在仿真环境中训练智能体,实现了在真实车辆上的零样本部署。

关键设计:奖励函数的设计是关键,需要平衡漂移的效率和安全性。具体的奖励函数形式未知,但应该包括以下几个方面:1) 跟踪误差:奖励智能体尽可能精确地跟踪航路点。2) 侧滑角:奖励智能体达到一定的侧滑角,以实现漂移。3) 赛道边界:惩罚智能体超出赛道边界的行为。4) 速度:奖励智能体保持一定的速度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该智能体能够在丰田GR Supra和雷克萨斯LC 500上实现平稳漂移,跟踪误差低至10厘米,侧滑角高达63°。该方法实现了在真实车辆上的零样本部署,无需额外的微调,证明了其在实际应用中的可行性。

🎯 应用场景

该研究成果可应用于高级驾驶辅助系统(ADAS)和自动驾驶领域,提高车辆在恶劣条件下的操控性和安全性。例如,在冰雪路面或紧急避险情况下,车辆可以利用漂移技术来保持控制,避免碰撞。此外,该技术还可以应用于赛车游戏和模拟器,提供更真实的驾驶体验。

📄 摘要(原文)

The skill to drift a car--i.e., operate in a state of controlled oversteer like professional drivers--could give future autonomous cars maximum flexibility when they need to retain control in adverse conditions or avoid collisions. We investigate real-time drifting strategies that put the car where needed while bypassing expensive trajectory optimization. To this end, we design a reinforcement learning agent that builds on the concept of tire energy absorption to autonomously drift through changing and complex waypoint configurations while safely staying within track bounds. We achieve zero-shot deployment on the car by training the agent in a simulation environment built on top of a neural stochastic differential equation vehicle model learned from pre-collected driving data. Experiments on a Toyota GR Supra and Lexus LC 500 show that the agent is capable of drifting smoothly through varying waypoint configurations with tracking error as low as 10 cm while stably pushing the vehicles to sideslip angles of up to 63°.