Reset-Free Reinforcement Learning for Real-World Agile Driving: An Empirical Study
作者: Kohei Honda, Hirotaka Hosogaya
分类: cs.RO
发布日期: 2026-04-09
备注: 7 pages, 5 figures,
💡 一句话要点
针对真实世界敏捷驾驶,提出无需重置的强化学习方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 敏捷驾驶 模型预测控制 残差学习 Sim-to-Real 自主训练 机器人控制
📋 核心要点
- 现有方法难以应对真实世界敏捷驾驶中复杂的车辆动力学和未建模效应,导致仿真与现实存在差距。
- 采用MPPI作为重置策略和残差学习的基础策略,在真实物理平台上进行自主训练,无需手动重置。
- 实验表明,TD-MPC2在真实物理平台上表现最佳,而残差学习在仿真中有效,但在现实世界中效果不佳。
📝 摘要(中文)
本文针对真实世界中的敏捷驾驶,提出了一种无需重置的强化学习(RL)实证研究。在一个湿滑的室内赛道上,一辆1/10比例的实体车辆在没有手动重置的情况下持续学习。高速驾驶接近轮胎摩擦极限对基于学习的方法提出了特别的挑战,因为复杂的车辆动力学、驱动延迟和其他未建模的影响阻碍了精确的仿真和学习策略的直接sim-to-real迁移。为了在物理平台上实现自主训练,我们采用模型预测路径积分控制(MPPI)作为重置策略和残差学习的基础策略,并系统地比较了三种具有代表性的RL算法,即PPO、SAC和TD-MPC2,在有和没有残差学习的情况下,在仿真和真实世界实验中进行比较。结果表明,仿真和真实世界之间存在明显差距:SAC与残差学习在仿真中获得了最高的回报,但只有TD-MPC2在物理平台上始终优于MPPI基线。此外,残差学习虽然在仿真中明显有益,但未能将其优势转移到现实世界,甚至可能降低性能。这些发现表明,现实世界中无需重置的RL提出了仿真中不存在的独特挑战,需要进一步开发针对在野外训练量身定制的算法。
🔬 方法详解
问题定义:论文旨在解决真实世界中敏捷驾驶的强化学习问题,特别是在车辆动力学复杂、存在驱动延迟和未建模效应的情况下,如何实现无需重置的自主训练。现有方法要么依赖于精确的仿真,要么难以将仿真策略直接迁移到真实世界,导致性能下降。手动重置车辆不仅耗时,也限制了学习的效率和连续性。
核心思路:论文的核心思路是利用模型预测路径积分控制(MPPI)作为重置策略和残差学习的基础策略,从而实现无需手动重置的自主训练。MPPI能够提供一个相对稳定和可控的基础策略,使得强化学习算法能够在此基础上进行微调和优化,从而更好地适应真实世界的复杂环境。
技术框架:整体框架包括以下几个主要模块:1) MPPI控制器:作为基础策略和重置策略,负责车辆的基本控制和安全行驶;2) 强化学习算法(PPO、SAC、TD-MPC2):在MPPI的基础上进行残差学习,优化控制策略;3) 物理平台:1/10比例的实体车辆,用于在真实环境中进行训练和测试;4) 仿真环境:用于初步的策略训练和验证。
关键创新:最重要的技术创新点在于将MPPI与残差强化学习相结合,实现了在真实物理平台上无需重置的自主训练。这种方法避免了手动重置的繁琐和低效,提高了学习的效率和连续性。此外,论文还系统地比较了不同的强化学习算法在真实世界中的表现,揭示了仿真与现实之间的差距。
关键设计:MPPI控制器的参数设置需要根据车辆的动力学特性进行调整,以保证其稳定性和安全性。残差学习的目标是学习MPPI控制器的偏差,从而优化整体控制策略。论文中使用了不同的强化学习算法(PPO、SAC、TD-MPC2),并针对每种算法进行了参数调优。损失函数的设计需要考虑车辆的行驶速度、轨迹跟踪精度和稳定性等因素。网络结构的选择也需要根据问题的复杂度和计算资源进行权衡。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在仿真环境中,SAC与残差学习相结合取得了最佳性能。然而,在真实物理平台上,TD-MPC2算法的表现优于其他算法,并且始终优于MPPI基线。值得注意的是,残差学习在仿真中带来的优势并未能成功迁移到真实世界,甚至在某些情况下降低了性能。这表明,真实世界中的强化学习面临着与仿真环境不同的挑战。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人控制等领域,尤其是在需要快速适应复杂环境和动态变化的场景中。例如,可以用于训练无人机在复杂地形中进行自主飞行,或者训练机器人手臂完成高精度操作。未来的研究可以进一步探索如何提高残差学习的迁移能力,以及如何设计更有效的强化学习算法,以适应真实世界中的各种挑战。
📄 摘要(原文)
This paper presents an empirical study of reset-free reinforcement learning (RL) for real-world agile driving, in which a physical 1/10-scale vehicle learns continuously on a slippery indoor track without manual resets. High-speed driving near the limits of tire friction is particularly challenging for learning-based methods because complex vehicle dynamics, actuation delays, and other unmodeled effects hinder both accurate simulation and direct sim-to-real transfer of learned policies. To enable autonomous training on a physical platform, we employ Model Predictive Path Integral control (MPPI) as both the reset policy and the base policy for residual learning, and systematically compare three representative RL algorithms, i.e., PPO, SAC, and TD-MPC2, with and without residual learning in simulation and real-world experiments. Our results reveal a clear gap between simulation and real-world: SAC with residual learning achieves the highest returns in simulation, yet only TD-MPC2 consistently outperforms the MPPI baseline on the physical platform. Moreover, residual learning, while clearly beneficial in simulation, fails to transfer its advantage to the real world and can even degrade performance. These findings reveal that reset-free RL in the real world poses unique challenges absent from simulation, calling for further algorithmic development tailored to training in the wild.