Safety Reinforced Model Predictive Control (SRMPC): Improving MPC with Reinforcement Learning for Motion Planning in Autonomous Driving
作者: Johannes Fischer, Marlon Steiner, Ömer Sahin Tas, Christoph Stiller
分类: cs.RO
发布日期: 2025-12-03
期刊: 2023 IEEE 26th International Conference on Intelligent Transportation Systems (ITSC), Bilbao, Spain, 2023, pp. 2811-2818
DOI: 10.1109/ITSC57777.2023.10422605
💡 一句话要点
提出安全强化学习增强的模型预测控制(SRMPC),提升自动驾驶运动规划的安全性与性能。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 模型预测控制 强化学习 安全强化学习 自动驾驶 运动规划
📋 核心要点
- 传统MPC为保证实时性采用凸近似,限制了解空间,可能错过全局最优解,影响自动驾驶性能。
- 提出SRMPC,利用安全强化学习在MPC框架内生成安全参考轨迹,探索更广阔的解空间。
- 实验表明,SRMPC在高速公路场景中,相比MPC和SRL,在安全性和性能上均有提升。
📝 摘要(中文)
本文提出了一种安全强化学习增强的模型预测控制(SRMPC)方法,用于提升自动驾驶中的运动规划性能。传统的模型预测控制(MPC)为了保证实时性,通常采用凸近似来简化最优控制问题(OCP),但这会将解限制在可能不包含全局最优解的子空间中。为了解决这个问题,我们利用安全强化学习(SRL)在MPC框架内生成新的、安全的参考轨迹。通过学习的方式,MPC可以探索先前解的邻域之外的解空间,从而找到全局最优解。我们采用约束强化学习(CRL)来确保自动驾驶的安全性,并使用基于手工设计的能量函数的安全指标作为约束目标,以建模安全和不安全区域。我们的方法利用一个状态相关的拉格朗日乘子,与安全策略同时学习,以解决CRL问题。在高速公路场景中的实验表明,我们的方法在安全性和性能指标方面均优于MPC和SRL。
🔬 方法详解
问题定义:传统模型预测控制(MPC)在自动驾驶运动规划中广泛应用,但为了满足实时性要求,通常需要对最优控制问题(OCP)进行凸近似。这种近似会将解限制在一个子空间内,可能无法找到全局最优解,从而影响规划性能。此外,单纯依赖MPC难以应对复杂和动态的交通环境,容易陷入局部最优或产生不安全的行为。
核心思路:本文的核心思路是利用安全强化学习(SRL)来增强MPC的性能。具体来说,SRL负责在MPC的框架内生成新的、安全的参考轨迹。通过学习,MPC可以探索更广阔的解空间,摆脱对初始解邻域的依赖,从而更有可能找到全局最优解。同时,通过约束强化学习(CRL)保证生成轨迹的安全性。
技术框架:SRMPC的整体框架可以概括为:首先,使用传统的MPC生成一个初始轨迹;然后,利用SRL学习一个策略,该策略能够生成新的参考轨迹,并将其反馈给MPC;MPC基于新的参考轨迹进行优化,得到最终的控制指令。为了保证安全性,SRL采用约束强化学习(CRL),将安全性指标作为约束条件。CRL问题的求解通过学习一个状态相关的拉格朗日乘子来实现,该乘子与安全策略同时学习。
关键创新:该方法最重要的创新点在于将安全强化学习与模型预测控制相结合,利用强化学习探索更优解空间的同时,保证了运动规划的安全性。与传统的MPC相比,SRMPC能够跳出局部最优,找到全局更优的轨迹。与单纯的强化学习方法相比,SRMPC利用MPC的预测能力,提高了规划的稳定性和可解释性。
关键设计:在CRL中,使用基于手工设计的能量函数的安全指标作为约束目标,用于建模安全和不安全区域。状态相关的拉格朗日乘子用于平衡性能和安全约束。具体来说,损失函数包含两部分:一部分是强化学习的奖励函数,另一部分是安全约束的惩罚项,惩罚项的大小由拉格朗日乘子决定。拉格朗日乘子和策略网络同时进行训练,以保证在满足安全约束的前提下,最大化奖励函数。
📊 实验亮点
在高速公路场景的实验中,SRMPC在安全性和性能指标方面均优于传统的MPC和SRL方法。具体来说,SRMPC能够更有效地避免碰撞,同时保持较高的行驶速度和较低的油耗。实验结果表明,SRMPC在保证安全性的前提下,能够显著提升自动驾驶车辆的整体性能。
🎯 应用场景
SRMPC方法可应用于各种自动驾驶场景,例如高速公路巡航、城市道路导航、自动泊车等。该方法能够提高自动驾驶车辆在复杂交通环境中的安全性和性能,减少人为干预,提升用户体验。未来,该方法还可以扩展到其他机器人运动规划领域,例如无人机、无人船等。
📄 摘要(原文)
Model predictive control (MPC) is widely used for motion planning, particularly in autonomous driving. Real-time capability of the planner requires utilizing convex approximation of optimal control problems (OCPs) for the planner. However, such approximations confine the solution to a subspace, which might not contain the global optimum. To address this, we propose using safe reinforcement learning (SRL) to obtain a new and safe reference trajectory within MPC. By employing a learning-based approach, the MPC can explore solutions beyond the close neighborhood of the previous one, potentially finding global optima. We incorporate constrained reinforcement learning (CRL) to ensure safety in automated driving, using a handcrafted energy function-based safety index as the constraint objective to model safe and unsafe regions. Our approach utilizes a state-dependent Lagrangian multiplier, learned concurrently with the safe policy, to solve the CRL problem. Through experimentation in a highway scenario, we demonstrate the superiority of our approach over both MPC and SRL in terms of safety and performance measures.