A Champion-level Vision-based Reinforcement Learning Agent for Competitive Racing in Gran Turismo 7
作者: Hojoon Lee, Takuma Seno, Jun Jet Tai, Kaushik Subramanian, Kenta Kawamoto, Peter Stone, Peter R. Wurman
分类: cs.LG
发布日期: 2025-04-12
备注: Accepted for Publication at the IEEE Robotics and Automation Letters (RA-L) 2025
💡 一句话要点
提出基于视觉的强化学习赛车智能体,在GT7中达到冠军级水平
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 自动驾驶 赛车游戏 计算机视觉 深度学习
📋 核心要点
- 现有赛车强化学习依赖全局特征,如精确定位,限制了其在真实世界的应用。
- 提出一种基于视觉的自动驾驶智能体,仅使用车载摄像头和传感器数据,无需全局定位。
- 在GT7中评估,该智能体性能超越GT7内置驱动,达到冠军级水平。
📝 摘要(中文)
本文提出了一种基于视觉的自动驾驶赛车智能体,该智能体仅依赖于以自我为中心的摄像头视图和车载传感器数据,无需精确的定位信息即可进行推理,从而克服了传统深度强化学习方法对全局特征的依赖。该智能体采用非对称的Actor-Critic框架:Actor使用循环神经网络和车载传感器数据来学习赛道布局和对手位置,而Critic在训练期间可以访问全局特征。在Gran Turismo 7 (GT7) 中的评估表明,该智能体始终优于 GT7 内置的驱动程序。据我们所知,这项工作首次展示了基于视觉的自动驾驶赛车智能体在竞争性赛车场景中达到冠军级水平。
🔬 方法详解
问题定义:现有基于深度强化学习的赛车智能体通常依赖于全局特征,例如智能体和对手的精确位置。这些全局特征通常需要外部设备或模拟器的支持才能获得,这限制了这些智能体在真实世界赛车场景中的应用。因此,需要开发一种仅依赖于车载传感器数据的自动驾驶赛车智能体。
核心思路:本文的核心思路是设计一个基于视觉的自动驾驶赛车智能体,该智能体仅使用以自我为中心的摄像头视图和车载传感器数据进行决策。为了克服仅使用局部信息带来的挑战,该智能体采用了一种非对称的Actor-Critic框架,其中Actor负责学习赛道布局和对手位置,而Critic负责评估Actor的策略。
技术框架:该智能体的整体架构是一个非对称的Actor-Critic框架。Actor是一个循环神经网络,它接收车载摄像头图像和传感器数据作为输入,并输出车辆的控制指令(例如,转向、加速、刹车)。Critic接收全局特征(例如,智能体和对手的精确位置)作为输入,并输出对Actor策略的评估。Actor和Critic通过强化学习算法进行联合训练。
关键创新:该论文的关键创新在于提出了一种基于视觉的自动驾驶赛车智能体,该智能体仅依赖于车载传感器数据,无需全局定位信息。此外,该智能体采用了一种非对称的Actor-Critic框架,其中Actor负责学习赛道布局和对手位置,而Critic负责评估Actor的策略。这种非对称的设计使得Actor能够专注于学习局部信息,而Critic能够利用全局信息进行更准确的评估。
关键设计:Actor网络是一个循环神经网络,它包含卷积层和循环层。卷积层用于提取图像特征,循环层用于学习赛道布局和对手位置的时序信息。Critic网络是一个多层感知机,它接收全局特征作为输入,并输出对Actor策略的评估。强化学习算法采用的是近端策略优化(PPO)算法。具体的参数设置和网络结构细节在论文中有更详细的描述。
🖼️ 关键图片
📊 实验亮点
该论文提出的基于视觉的自动驾驶赛车智能体在Gran Turismo 7 (GT7) 中进行了评估。实验结果表明,该智能体始终优于 GT7 内置的驱动程序,并在多个赛道上取得了冠军级水平的性能。这表明该智能体具有很强的竞争力和泛化能力。具体性能数据和对比基线在论文中有详细的展示。
🎯 应用场景
该研究成果可应用于真实的自动驾驶赛车领域,例如无人驾驶汽车比赛。此外,该研究提出的基于视觉的强化学习方法也可以推广到其他需要仅依赖于局部信息的自动驾驶任务中,例如自动泊车、自动导航等。该研究的成功将推动自动驾驶技术的发展,并为未来的智能交通系统提供新的解决方案。
📄 摘要(原文)
Deep reinforcement learning has achieved superhuman racing performance in high-fidelity simulators like Gran Turismo 7 (GT7). It typically utilizes global features that require instrumentation external to a car, such as precise localization of agents and opponents, limiting real-world applicability. To address this limitation, we introduce a vision-based autonomous racing agent that relies solely on ego-centric camera views and onboard sensor data, eliminating the need for precise localization during inference. This agent employs an asymmetric actor-critic framework: the actor uses a recurrent neural network with the sensor data local to the car to retain track layouts and opponent positions, while the critic accesses the global features during training. Evaluated in GT7, our agent consistently outperforms GT7's built-drivers. To our knowledge, this work presents the first vision-based autonomous racing agent to demonstrate champion-level performance in competitive racing scenarios.