Drive Fast, Learn Faster: On-Board RL for High Performance Autonomous Racing

📄 arXiv: 2505.07321v1 📥 PDF

作者: Benedict Hildisch, Edoardo Ghignone, Nicolas Baumann, Cheng Hu, Andrea Carron, Michele Magno

分类: cs.RO

发布日期: 2025-05-12


💡 一句话要点

提出基于车载强化学习的自主赛车框架,实现高性能实时控制

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自主赛车 强化学习 车载学习 残差学习 软演员-评论家 实时控制 F1TENTH

📋 核心要点

  1. 传统强化学习依赖大量仿真预训练,但仿真环境与真实环境存在差异,导致迁移效果不佳,这是核心问题。
  2. 论文提出车载强化学习框架,通过残差强化学习结构增强经典控制器,并结合多步TD学习、异步训练和启发式奖励调整。
  3. 实验表明,该框架在F1TENTH平台上优于基线控制器,单圈时间缩短高达11.5%,端到端控制器也超越了之前的最佳结果。

📝 摘要(中文)

本文提出了一种鲁棒的车载强化学习框架,用于自主赛车,旨在消除对基于仿真的预训练的依赖,实现直接的真实环境适应。该系统引入了一种改进的软演员-评论家(SAC)算法,利用残差强化学习结构,通过集成多步时序差分(TD)学习、异步训练管道和启发式延迟奖励调整(HDRA),实时增强经典控制器,提高样本效率和训练稳定性。在F1TENTH赛车平台上进行了大量实验验证,结果表明,与最先进的方法相比,残差强化学习控制器始终优于基线控制器,并且仅需20分钟的训练即可将单圈时间缩短高达11.5%。此外,在没有基线控制器的情况下训练的端到端(E2E)强化学习控制器,通过持续的赛道学习,超越了之前的最佳结果。这些发现将该框架定位为高性能自主赛车的强大解决方案,并为其他实时、动态自主系统提供了一个有希望的方向。

🔬 方法详解

问题定义:自主赛车需要在非线性动力学、高速和动态不确定条件下进行实时决策。传统强化学习方法依赖于大量的仿真预训练,但仿真环境与真实环境的差异导致模型难以有效迁移,限制了其在真实赛车场景中的应用。

核心思路:论文的核心思路是直接在真实赛车平台上进行车载强化学习,避免仿真预训练带来的问题。通过残差强化学习结构,利用强化学习算法对经典控制器进行增强,使其能够适应真实环境中的复杂动态特性。

技术框架:该框架包含以下主要模块:1) 传感器数据采集模块,用于获取赛车状态和环境信息;2) 经典控制器模块,提供基础的控制策略;3) 残差强化学习模块,学习对经典控制器的修正量;4) 异步训练管道,实现高效的样本收集和模型更新;5) 启发式延迟奖励调整模块,提高训练的稳定性和样本效率。整体流程是,赛车在赛道上行驶,传感器数据被输入到经典控制器和残差强化学习模块中,两者输出的控制指令叠加后作用于赛车,同时收集数据用于强化学习模型的训练。

关键创新:该论文的关键创新在于提出了一种完全基于车载强化学习的自主赛车框架,无需仿真预训练。通过残差强化学习结构,能够有效地利用经典控制器的先验知识,并在此基础上进行学习,加速了训练过程。此外,异步训练管道和启发式延迟奖励调整进一步提高了训练的效率和稳定性。与现有方法相比,该方法能够直接在真实环境中进行学习,避免了仿真环境与真实环境的差异带来的问题。

关键设计:论文采用了Soft Actor-Critic (SAC)算法作为强化学习算法,并对其进行了改进,使其更适合于自主赛车场景。具体来说,采用了多步时序差分(TD)学习来提高样本效率,并设计了启发式延迟奖励调整(HDRA)来解决奖励稀疏的问题。网络结构方面,采用了多层感知机(MLP)作为演员和评论家的网络结构。损失函数方面,采用了SAC算法的标准损失函数,并根据具体任务进行了调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该框架在F1TENTH赛车平台上取得了显著的性能提升。与基线控制器相比,残差强化学习控制器能够将单圈时间缩短高达11.5%,并且仅需20分钟的训练。此外,在没有基线控制器的情况下训练的端到端强化学习控制器,也超越了之前的最佳结果,证明了该框架的有效性和优越性。

🎯 应用场景

该研究成果可应用于自主赛车领域,提高赛车的性能和智能化水平。此外,该框架也可推广到其他实时、动态的自主系统,如无人驾驶、机器人控制等领域,具有广泛的应用前景和实际价值。通过车载强化学习,可以使自主系统更好地适应真实环境,提高其鲁棒性和泛化能力,推动自主系统的发展。

📄 摘要(原文)

Autonomous racing presents unique challenges due to its non-linear dynamics, the high speed involved, and the critical need for real-time decision-making under dynamic and unpredictable conditions. Most traditional Reinforcement Learning (RL) approaches rely on extensive simulation-based pre-training, which faces crucial challenges in transfer effectively to real-world environments. This paper introduces a robust on-board RL framework for autonomous racing, designed to eliminate the dependency on simulation-based pre-training enabling direct real-world adaptation. The proposed system introduces a refined Soft Actor-Critic (SAC) algorithm, leveraging a residual RL structure to enhance classical controllers in real-time by integrating multi-step Temporal-Difference (TD) learning, an asynchronous training pipeline, and Heuristic Delayed Reward Adjustment (HDRA) to improve sample efficiency and training stability. The framework is validated through extensive experiments on the F1TENTH racing platform, where the residual RL controller consistently outperforms the baseline controllers and achieves up to an 11.5 % reduction in lap times compared to the State-of-the-Art (SotA) with only 20 min of training. Additionally, an End-to-End (E2E) RL controller trained without a baseline controller surpasses the previous best results with sustained on-track learning. These findings position the framework as a robust solution for high-performance autonomous racing and a promising direction for other real-time, dynamic autonomous systems.