Explainable Reinforcement Learning for Formula One Race Strategy

📄 arXiv: 2501.04068v1 📥 PDF

作者: Devin Thomas, Junqi Jiang, Avinash Kori, Aaron Russo, Steffen Winkler, Stuart Sale, Joseph McMillan, Francesco Belardinelli, Antonio Rago

分类: cs.LG, cs.AI

发布日期: 2025-01-07

备注: 9 pages, 6 figures. Copyright ACM 2025. This is the authors' version of the work. It is posted here for your personal use. Not for redistribution. The definitive Version of Record will be published in SAC 2025, http://dx.doi.org/10.1145/3672608.3707766

DOI: 10.1145/3672608.3707766


💡 一句话要点

提出RSRL,一种基于强化学习的F1赛车策略优化方法,优于传统策略。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 赛车策略 F1 深度Q网络 可解释性 模拟 策略优化

📋 核心要点

  1. F1赛车比赛中,如何在比赛过程中优化轮胎选择和更换策略以提升名次是一个关键问题,传统方法如硬编码和蒙特卡洛存在效率问题。
  2. RSRL模型利用强化学习来控制赛车策略,通过学习在不同赛道和情境下的最优决策,从而实现更高效的策略优化。
  3. 实验结果表明,RSRL在模拟比赛中超越了现有最佳基线,并且可以通过训练来优先考虑特定赛道的性能,具有良好的泛化能力。

📝 摘要(中文)

本文提出了一种用于一级方程式(F1)赛车策略的强化学习模型,RSRL(Race Strategy Reinforcement Learning)。在比赛中,车队无法改变赛车本身,因此必须通过优化比赛策略来提高名次,即选择合适的轮胎配方以及更换轮胎的时机。RSRL通过模拟控制比赛策略,为行业标准的硬编码和基于蒙特卡洛的策略提供了一种更快的替代方案。在模拟的2023年巴林大奖赛中,RSRL控制的赛车平均成绩为P5.33(预期成绩为P5.5),优于最佳基线P5.63。此外,通过训练,可以优先考虑单个或多个赛道的性能。为了提高用户对模型的信任,本文还提供了特征重要性、基于决策树的代理模型和决策树反事实分析。最后,通过模拟与现实的对比,展示了该方法在实际情况中的应用。

🔬 方法详解

问题定义:F1赛车比赛中,车队需要在比赛过程中制定最优的轮胎更换策略,以最大化最终的比赛名次。传统方法,如硬编码规则和蒙特卡洛模拟,计算成本高昂,且难以适应复杂多变的比赛环境。这些方法无法快速有效地找到最优策略,限制了车队的决策效率和竞争力。

核心思路:本文的核心思路是利用强化学习(RL)来学习最优的赛车策略。通过将赛车比赛环境建模为马尔可夫决策过程(MDP),RL智能体可以与环境交互,学习在不同状态下选择最佳的轮胎更换策略,从而最大化累积奖励(例如,比赛名次)。这种方法能够自适应地学习复杂环境下的最优策略,避免了人工设计规则的局限性。

技术框架:RSRL模型的整体框架包括以下几个主要模块:1) 赛车比赛模拟器:用于模拟真实的赛车比赛环境,包括赛道、赛车性能、轮胎磨损等因素。2) 强化学习智能体:基于深度神经网络,学习最优的赛车策略。智能体接收来自模拟器的状态信息(例如,赛车位置、轮胎磨损程度),并输出动作(例如,更换轮胎、保持当前轮胎)。3) 奖励函数:用于评估智能体在比赛中的表现,例如,根据比赛名次给予奖励。4) 解释性模块:用于解释智能体的决策过程,包括特征重要性分析、决策树代理模型和反事实分析。

关键创新:RSRL的关键创新在于将强化学习应用于F1赛车策略优化,并结合了可解释性技术。与传统的硬编码和蒙特卡洛方法相比,RSRL能够自适应地学习复杂环境下的最优策略,并且能够提供对决策过程的解释,增强了用户对模型的信任。此外,RSRL还能够通过训练来优先考虑特定赛道的性能,具有良好的泛化能力。

关键设计:RSRL模型使用了深度Q网络(DQN)作为强化学习智能体的核心。状态空间包括赛车位置、速度、轮胎磨损程度等信息。动作空间包括更换不同类型的轮胎和保持当前轮胎。奖励函数根据比赛名次进行设计,例如,获得第一名给予最高的奖励。为了提高模型的泛化能力,使用了经验回放和目标网络等技术。此外,为了提高模型的可解释性,使用了特征重要性分析、决策树代理模型和反事实分析等技术。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RSRL模型在2023年巴林大奖赛的模拟测试中,取得了平均P5.33的完赛位置,优于最佳基线P5.63。这表明RSRL能够有效地优化赛车策略,提升比赛成绩。此外,通过训练,RSRL可以优先考虑特定赛道的性能,具有良好的泛化能力。

🎯 应用场景

该研究成果可应用于F1赛车队的比赛策略制定,帮助车队更高效地选择轮胎和更换时机,从而提高比赛成绩。此外,该方法还可以推广到其他需要策略优化的领域,如物流调度、资源分配等,具有广泛的应用前景和实际价值。

📄 摘要(原文)

In Formula One, teams compete to develop their cars and achieve the highest possible finishing position in each race. During a race, however, teams are unable to alter the car, so they must improve their cars' finishing positions via race strategy, i.e. optimising their selection of which tyre compounds to put on the car and when to do so. In this work, we introduce a reinforcement learning model, RSRL (Race Strategy Reinforcement Learning), to control race strategies in simulations, offering a faster alternative to the industry standard of hard-coded and Monte Carlo-based race strategies. Controlling cars with a pace equating to an expected finishing position of P5.5 (where P1 represents first place and P20 is last place), RSRL achieves an average finishing position of P5.33 on our test race, the 2023 Bahrain Grand Prix, outperforming the best baseline of P5.63. We then demonstrate, in a generalisability study, how performance for one track or multiple tracks can be prioritised via training. Further, we supplement model predictions with feature importance, decision tree-based surrogate models, and decision tree counterfactuals towards improving user trust in the model. Finally, we provide illustrations which exemplify our approach in real-world situations, drawing parallels between simulations and reality.