Safety Reinforced Model Predictive Control (SRMPC): Improving MPC with Reinforcement Learning for Motion Planning in Autonomous Driving
作者: Johannes Fischer, Marlon Steiner, Ömer Sahin Tas, Christoph Stiller
分类: cs.RO
发布日期: 2025-12-03
期刊: 2023 IEEE 26th International Conference on Intelligent Transportation Systems (ITSC), Bilbao, Spain, 2023, pp. 2811-2818
DOI: 10.1109/ITSC57777.2023.10422605
💡 一句话要点
提出安全强化学习增强的模型预测控制(SRMPC),用于自动驾驶运动规划。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 模型预测控制 强化学习 安全强化学习 自动驾驶 运动规划
📋 核心要点
- 传统MPC为保证实时性采用凸近似,限制了解空间,可能错过全局最优解。
- 利用安全强化学习(SRL)在MPC框架内生成安全参考轨迹,扩展解空间。
- 实验表明,该方法在高速公路场景中,安全性和性能均优于传统MPC和SRL。
📝 摘要(中文)
本文提出了一种安全强化学习增强的模型预测控制(SRMPC)方法,用于自动驾驶中的运动规划。传统的模型预测控制(MPC)为了保证实时性,通常采用凸近似来简化最优控制问题(OCP),但这会将解限制在一个子空间内,可能无法找到全局最优解。为了解决这个问题,我们利用安全强化学习(SRL)在MPC框架内生成新的、安全的参考轨迹。通过学习的方法,MPC可以探索先前解的邻域之外的解空间,从而找到全局最优解。我们采用约束强化学习(CRL),使用基于手工设计的能量函数的安全指标作为约束目标,来保证自动驾驶的安全性,以此来建模安全和不安全的区域。我们的方法利用一个状态相关的拉格朗日乘子,与安全策略同时学习,以解决CRL问题。在高速公路场景中的实验表明,我们的方法在安全性和性能指标方面都优于MPC和SRL。
🔬 方法详解
问题定义:论文旨在解决自动驾驶中运动规划问题,现有MPC方法为了实时性,通常采用凸近似,导致解空间受限,可能无法找到全局最优解,存在安全隐患。
核心思路:核心思想是利用安全强化学习(SRL)来增强MPC的性能。具体来说,SRL用于生成新的、安全的参考轨迹,引导MPC探索更广阔的解空间,从而有机会找到全局最优解,同时保证安全性。
技术框架:整体框架是MPC与SRL的结合。首先,传统的MPC提供一个初始轨迹。然后,SRL模块基于当前状态学习一个新的参考轨迹,该轨迹在MPC的约束范围内,并且满足安全约束。MPC再根据这个新的参考轨迹进行优化,得到最终的控制指令。关键模块包括:MPC优化器、安全强化学习策略、约束强化学习求解器。
关键创新:最重要的创新点在于将安全强化学习引入到模型预测控制中,通过学习的方式扩展了MPC的解空间,克服了凸近似带来的局限性。同时,采用约束强化学习保证了运动规划过程中的安全性。
关键设计:论文使用基于能量函数的安全指标作为约束强化学习的约束目标,用于建模安全和不安全的区域。采用状态相关的拉格朗日乘子来解决约束强化学习问题,该乘子与安全策略同时学习。具体网络结构和损失函数细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在高速公路场景中,所提出的SRMPC方法在安全性和性能指标方面均优于传统的MPC和SRL方法。具体的性能提升数据未知,但论文强调了SRMPC在复杂场景下的优越性,表明其能够更好地平衡安全性和运动性能。
🎯 应用场景
该研究成果可应用于自动驾驶车辆的运动规划,尤其是在高速公路等复杂交通场景中。通过结合模型预测控制的精确性和强化学习的自适应性,可以提高自动驾驶系统的安全性、舒适性和效率。该方法还可以扩展到其他机器人运动规划领域,例如无人机、无人船等。
📄 摘要(原文)
Model predictive control (MPC) is widely used for motion planning, particularly in autonomous driving. Real-time capability of the planner requires utilizing convex approximation of optimal control problems (OCPs) for the planner. However, such approximations confine the solution to a subspace, which might not contain the global optimum. To address this, we propose using safe reinforcement learning (SRL) to obtain a new and safe reference trajectory within MPC. By employing a learning-based approach, the MPC can explore solutions beyond the close neighborhood of the previous one, potentially finding global optima. We incorporate constrained reinforcement learning (CRL) to ensure safety in automated driving, using a handcrafted energy function-based safety index as the constraint objective to model safe and unsafe regions. Our approach utilizes a state-dependent Lagrangian multiplier, learned concurrently with the safe policy, to solve the CRL problem. Through experimentation in a highway scenario, we demonstrate the superiority of our approach over both MPC and SRL in terms of safety and performance measures.