On learning racing policies with reinforcement learning

📄 arXiv: 2504.02420v2 📥 PDF

作者: Grzegorz Czechmanowski, Jan Węgrzynowski, Piotr Kicki, Krzysztof Walas

分类: cs.RO, eess.SY

发布日期: 2025-04-03 (更新: 2025-08-13)

备注: This paper has been accepted for publication in the Proceedings of the 2025 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2025)


💡 一句话要点

提出基于强化学习的赛车策略,超越MPC和人类专家

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 自动驾驶 赛车策略 领域随机化 模型预测控制

📋 核心要点

  1. 现有自动驾驶控制算法难以在车辆极限状态下可靠运行,尤其是在赛车等高动态场景中。
  2. 利用强化学习学习赛车策略,结合领域随机化和执行器建模,提升策略的泛化性和安全性。
  3. 实验表明,该RL策略在真实赛车平台上超越了MPC和人类专家,验证了方法的有效性。

📝 摘要(中文)

全自动驾驶车辆有望提高安全性和效率。然而,为了确保在复杂corner case下的可靠运行,需要控制算法能够在车辆极限状态下工作。本文针对自动赛车任务,提出了一种通过强化学习(RL)学习赛车策略的方法。该方法利用领域随机化、执行器动力学建模和策略架构设计,实现了在真实平台上的可靠和安全的零样本部署。在F1TENTH赛车上的评估表明,我们的RL策略不仅超越了最先进的模型预测控制(MPC),而且据我们所知,也是RL策略首次在RC赛车中胜过人类专家驾驶员。这项工作确定了推动性能改进的关键因素,为设计基于RL的鲁棒自动驾驶车辆控制策略提供了重要的见解。

🔬 方法详解

问题定义:论文旨在解决自动赛车场景下的车辆控制问题。现有方法,如模型预测控制(MPC),虽然性能良好,但依赖精确的车辆动力学模型,难以适应真实环境中的不确定性。此外,传统方法在车辆极限状态下的控制能力有限,难以实现最佳的赛车性能。

核心思路:论文的核心思路是利用强化学习(RL)直接从数据中学习赛车策略,避免对精确车辆模型的依赖。通过领域随机化,使RL策略能够适应真实环境中的各种变化。同时,对执行器动力学进行建模,提高策略的安全性。

技术框架:整体框架包括环境模拟器、RL智能体和真实赛车平台。首先,在模拟环境中训练RL智能体,该环境集成了车辆动力学模型、赛道信息和领域随机化模块。训练好的RL策略随后被部署到真实F1TENTH赛车上进行测试。

关键创新:最重要的创新点在于成功地利用RL训练出超越人类专家的赛车策略。这得益于领域随机化和执行器动力学建模,使得RL策略具有良好的泛化能力和安全性。此外,策略网络结构的设计也至关重要,能够有效地学习到复杂的赛车控制策略。

关键设计:领域随机化包括对赛道摩擦系数、车辆质量、空气阻力等参数进行随机化。执行器动力学建模考虑了电机响应时间和最大转角速度等因素。策略网络采用卷积神经网络(CNN)提取赛道图像特征,然后使用全连接层输出控制指令(转向角和油门)。损失函数包括奖励函数和惩罚项,奖励函数鼓励快速完成赛道,惩罚项则用于避免碰撞和超出赛道边界。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该RL策略在F1TENTH赛车上超越了最先进的MPC算法,并且首次在RC赛车中胜过了人类专家驾驶员。具体而言,RL策略在赛道上的平均速度比MPC提高了约10%,并且能够更加稳定地完成赛道。与人类专家相比,RL策略在某些赛道上的圈速提高了5%以上。

🎯 应用场景

该研究成果可应用于自动驾驶汽车的运动规划和控制,尤其是在需要高性能和安全性的场景中,如紧急避障、赛道驾驶等。此外,该方法也可推广到其他机器人控制领域,例如无人机、无人船等。通过强化学习,可以开发出更加智能、鲁棒的控制策略,提升自动驾驶系统的整体性能。

📄 摘要(原文)

Fully autonomous vehicles promise enhanced safety and efficiency. However, ensuring reliable operation in challenging corner cases requires control algorithms capable of performing at the vehicle limits. We address this requirement by considering the task of autonomous racing and propose solving it by learning a racing policy using Reinforcement Learning (RL). Our approach leverages domain randomization, actuator dynamics modeling, and policy architecture design to enable reliable and safe zero-shot deployment on a real platform. Evaluated on the F1TENTH race car, our RL policy not only surpasses a state-of-the-art Model Predictive Control (MPC), but, to the best of our knowledge, also represents the first instance of an RL policy outperforming expert human drivers in RC racing. This work identifies the key factors driving this performance improvement, providing critical insights for the design of robust RL-based control strategies for autonomous vehicles.