RLPP: A Residual Method for Zero-Shot Real-World Autonomous Racing on Scaled Platforms

📄 arXiv: 2501.17311v2 📥 PDF

作者: Edoardo Ghignone, Nicolas Baumann, Cheng Hu, Jonathan Wang, Lei Xie, Andrea Carron, Michele Magno

分类: cs.RO, cs.LG

发布日期: 2025-01-28 (更新: 2025-02-06)

备注: This paper has been accepted for publication at the IEEE International Conference on Robotics and Automation (ICRA), Atlanta 2025. The code is available at: www.github.com/forzaeth/rlpp


💡 一句话要点

提出RLPP残差强化学习框架,用于零样本真实环境小型赛车自主驾驶

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 自主赛车 残差学习 sim-to-real Pure Pursuit 机器人控制

📋 核心要点

  1. 传统自主赛车控制器依赖轮胎模型,需大量调参,强化学习虽有潜力,但存在模拟到现实的迁移难题。
  2. RLPP框架结合Pure Pursuit控制器的可靠性与强化学习的自适应性,通过残差学习微调控制器性能。
  3. 实验表明,RLPP在真实F1TENTH赛车平台上显著提升了圈速,缩小了与先进方法的差距,并改善了零样本迁移性能。

📝 摘要(中文)

自主赛车是一个复杂的环境,需要强大的控制器能够在动态条件下做出快速决策。传统的基于轮胎模型的控制器虽然可靠,但通常需要大量的调整或系统辨识。强化学习(RL)方法由于其直接从交互中学习的能力而具有巨大的潜力,但它们通常受到sim-to-real差距的影响,即在模拟中训练的策略无法在真实世界中有效地执行。本文提出了一种残差强化学习框架RLPP,该框架使用基于RL的残差来增强Pure Pursuit (PP)控制器。这种混合方法利用了PP的可靠性和可解释性,同时使用RL来微调控制器在真实场景中的性能。在F1TENTH平台上的大量测试表明,RLPP将基线控制器的单圈时间提高了6.37%,将与最先进方法的差距缩小了52%以上,并在零样本真实世界部署中提供了可靠的性能,克服了与sim-to-real迁移相关的关键挑战,与基线RL控制器相比,将从模拟到现实的性能差距缩小了8倍以上。RLPP框架已作为开源工具提供,鼓励进一步探索和推进自主赛车研究。代码可在www.github.com/forzaeth/rlpp获得。

🔬 方法详解

问题定义:自主赛车需要控制器在动态环境中快速决策,传统控制器依赖精确的车辆动力学模型,需要耗时的参数调整和系统辨识。纯强化学习方法虽然能直接从环境中学习,但由于模拟环境与真实环境的差异,导致训练好的策略难以直接应用于真实赛车,即存在“sim-to-real”的迁移问题。

核心思路:论文的核心思路是结合传统控制方法和强化学习的优点,提出一种残差强化学习框架。该框架以Pure Pursuit (PP)控制器作为基础,利用其良好的稳定性和可解释性,然后通过强化学习训练一个残差策略,对PP控制器的输出进行微调,从而提高在真实环境中的性能。这种方法可以有效利用先验知识,降低强化学习的探索空间,并提高策略的泛化能力。

技术框架:RLPP框架主要包含以下几个模块:1) Pure Pursuit控制器:作为基础控制器,根据赛道路径计算目标转向角。2) 强化学习Agent:使用深度神经网络学习残差控制量,输入是赛车状态(例如速度、横向误差、航向角误差),输出是转向角的修正量。3) 环境交互模块:在模拟或真实环境中与赛车交互,收集状态、动作和奖励信号。4) 训练模块:使用强化学习算法(例如PPO)更新Agent的网络参数。整体流程是:PP控制器计算基础转向角,RL Agent根据当前状态计算残差转向角,两者相加得到最终的控制指令,作用于赛车,环境返回新的状态和奖励,用于训练RL Agent。

关键创新:RLPP的关键创新在于将强化学习作为残差项,对传统控制器进行微调。这种方法有以下优点:1) 利用了传统控制器的先验知识,降低了强化学习的探索难度。2) 提高了策略的鲁棒性和泛化能力,更容易实现sim-to-real迁移。3) 保持了控制器的可解释性,便于调试和优化。与纯强化学习方法相比,RLPP能够更快地收敛,并在真实环境中取得更好的性能。

关键设计:在具体实现上,论文可能采用了以下关键设计:1) 状态空间的设计:选择合适的状态变量,例如速度、横向误差、航向角误差等,能够充分描述赛车的状态。2) 奖励函数的设计:设计能够引导赛车沿着赛道快速行驶的奖励函数,例如基于速度、与赛道中心的距离、是否发生碰撞等因素的组合。3) 网络结构的设计:选择合适的神经网络结构,例如多层感知机或卷积神经网络,用于学习残差策略。4) 训练算法的选择:选择合适的强化学习算法,例如PPO或SAC,用于更新Agent的网络参数。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RLPP框架在F1TENTH平台上显著提升了赛车的性能。与基线Pure Pursuit控制器相比,RLPP将单圈时间提高了6.37%。此外,RLPP还缩小了与最先进方法之间的差距,达到了52%以上。更重要的是,RLPP在零样本真实世界部署中表现出色,与基线RL控制器相比,将从模拟到现实的性能差距缩小了8倍以上,证明了其良好的泛化能力和sim-to-real迁移性能。

🎯 应用场景

RLPP框架具有广泛的应用前景,不仅可以应用于自主赛车领域,还可以推广到其他需要精确控制的机器人系统,例如无人驾驶车辆、无人机、移动机器人等。通过结合传统控制方法和强化学习,可以提高控制系统的鲁棒性、自适应性和智能化水平,从而实现更安全、更高效的自主控制。

📄 摘要(原文)

Autonomous racing presents a complex environment requiring robust controllers capable of making rapid decisions under dynamic conditions. While traditional controllers based on tire models are reliable, they often demand extensive tuning or system identification. Reinforcement Learning (RL) methods offer significant potential due to their ability to learn directly from interaction, yet they typically suffer from the sim-to-real gap, where policies trained in simulation fail to perform effectively in the real world. In this paper, we propose RLPP, a residual RL framework that enhances a Pure Pursuit (PP) controller with an RL-based residual. This hybrid approach leverages the reliability and interpretability of PP while using RL to fine-tune the controller's performance in real-world scenarios. Extensive testing on the F1TENTH platform demonstrates that RLPP improves lap times of the baseline controllers by up to 6.37 %, closing the gap to the State-of-the-Art methods by more than 52 % and providing reliable performance in zero-shot real-world deployment, overcoming key challenges associated with the sim-to-real transfer and reducing the performance gap from simulation to reality by more than 8-fold when compared to the baseline RL controller. The RLPP framework is made available as an open-source tool, encouraging further exploration and advancement in autonomous racing research. The code is available at: www.github.com/forzaeth/rlpp.