A Comprehensive Review of Reinforcement Learning for Autonomous Driving in the CARLA Simulator
作者: Elahe Delavari, Feeza Khan Khanzada, Jaerock Kwon
分类: cs.RO
发布日期: 2025-09-10
💡 一句话要点
综述:CARLA模拟器中基于强化学习的自动驾驶研究
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 强化学习 自动驾驶 CARLA模拟器 综述 深度学习 无模型学习 基于模型学习
📋 核心要点
- 现有基于强化学习的自动驾驶研究缺乏系统性的分析和评估,阻碍了该领域的发展。
- 该综述通过分析CARLA模拟器中的大量论文,对强化学习算法在自动驾驶中的应用进行了全面的分类和总结。
- 该研究识别了现有方法的挑战,并提出了未来研究方向,为该领域的研究人员提供了有价值的参考。
📝 摘要(中文)
近年来,深度强化学习(RL)作为一种数据驱动的决策框架,在自动驾驶研究中备受青睐。然而,目前对于这些算法如何被应用、基准测试和评估,仍然缺乏清晰的认识。本综述旨在填补这一空白,系统地分析了近100篇在开源CARLA模拟器中训练、测试或验证RL策略的同行评审论文。我们首先按照算法家族(无模型、基于模型、分层和混合)对文献进行分类,并量化它们的流行程度,强调超过80%的现有研究仍然依赖于DQN、PPO和SAC等无模型方法。其次,我们解释了不同研究中采用的多样化的状态、动作和奖励设计,阐述了传感器模态(RGB、LiDAR、BEV、语义地图和CARLA运动学状态)、控制抽象(离散与连续)和奖励塑造如何在各种文献中使用。我们还通过列出CARLA基准测试中最常用的指标(成功率、碰撞率、车道偏离、驾驶分数)以及城镇、场景和交通配置,整合了评估体系。持续存在的挑战,包括稀疏奖励、sim-to-real迁移、安全保证和有限的行为多样性,被提炼成一系列开放的研究问题,并概述了有希望的方向,如基于模型的RL、元学习和更丰富的多智能体模拟。通过提供统一的分类、定量统计和对局限性的批判性讨论,本综述旨在为新手提供参考,并为推进基于RL的自动驾驶走向实际部署提供路线图。
🔬 方法详解
问题定义:现有基于强化学习的自动驾驶研究,缺乏对算法应用、基准测试和评估的系统性分析。研究人员难以了解不同算法的优缺点,以及如何选择合适的算法和参数来解决特定的自动驾驶任务。此外,sim-to-real迁移、安全保证和行为多样性等挑战依然存在,限制了强化学习在自动驾驶领域的实际应用。
核心思路:本综述的核心思路是对现有文献进行系统性的梳理和分类,从算法类型、状态/动作/奖励设计、评估指标和场景等方面进行分析,从而为研究人员提供一个全面的了解。通过识别现有方法的局限性,并提出未来的研究方向,旨在促进强化学习在自动驾驶领域的进一步发展。
技术框架:该综述首先收集了大量在CARLA模拟器中训练、测试或验证RL策略的论文。然后,按照算法家族(无模型、基于模型、分层和混合)对这些论文进行分类,并量化它们的流行程度。接着,分析了不同研究中采用的状态、动作和奖励设计,以及评估指标和场景。最后,总结了现有方法的挑战,并提出了未来的研究方向。
关键创新:该综述的关键创新在于其系统性和全面性。它不仅对现有文献进行了分类和总结,还深入分析了不同算法的优缺点,以及评估指标和场景的选择。此外,该综述还识别了现有方法的挑战,并提出了未来的研究方向,为该领域的研究人员提供了有价值的参考。
关键设计:该综述的关键设计包括:1) 按照算法家族对文献进行分类;2) 分析状态、动作和奖励设计;3) 总结评估指标和场景;4) 识别现有方法的挑战;5) 提出未来的研究方向。这些设计使得该综述能够全面、系统地分析现有研究,并为未来的研究提供指导。
🖼️ 关键图片
📊 实验亮点
该综述分析了近100篇在CARLA模拟器中训练、测试或验证RL策略的论文,发现超过80%的现有研究仍然依赖于DQN、PPO和SAC等无模型方法。该综述还总结了CARLA基准测试中最常用的指标(成功率、碰撞率、车道偏离、驾驶分数)以及城镇、场景和交通配置。
🎯 应用场景
该综述为自动驾驶领域的研究人员和工程师提供了一个全面的参考,可以帮助他们了解强化学习在自动驾驶中的应用现状和未来发展方向。该综述还可以帮助他们选择合适的算法和参数来解决特定的自动驾驶任务,并促进强化学习在自动驾驶领域的实际应用。
📄 摘要(原文)
Autonomous-driving research has recently embraced deep Reinforcement Learning (RL) as a promising framework for data-driven decision making, yet a clear picture of how these algorithms are currently employed, benchmarked and evaluated is still missing. This survey fills that gap by systematically analysing around 100 peer-reviewed papers that train, test or validate RL policies inside the open-source CARLA simulator. We first categorize the literature by algorithmic family model-free, model-based, hierarchical, and hybrid and quantify their prevalence, highlighting that more than 80% of existing studies still rely on model-free methods such as DQN, PPO and SAC. Next, we explain the diverse state, action and reward formulations adopted across works, illustrating how choices of sensor modality (RGB, LiDAR, BEV, semantic maps, and carla kinematics states), control abstraction (discrete vs. continuous) and reward shaping are used across various literature. We also consolidate the evaluation landscape by listing the most common metrics (success rate, collision rate, lane deviation, driving score) and the towns, scenarios and traffic configurations used in CARLA benchmarks. Persistent challenges including sparse rewards, sim-to-real transfer, safety guarantees and limited behaviour diversity are distilled into a set of open research questions, and promising directions such as model-based RL, meta-learning and richer multi-agent simulations are outlined. By providing a unified taxonomy, quantitative statistics and a critical discussion of limitations, this review aims to serve both as a reference for newcomers and as a roadmap for advancing RL-based autonomous driving toward real-world deployment.