Reinforced Model Predictive Control via Trust-Region Quasi-Newton Policy Optimization
作者: Dean Brandner, Sergio Lucia
分类: cs.LG, eess.SY
发布日期: 2024-05-28 (更新: 2024-10-31)
备注: European Control Conference (ECC) 2024, Code: https://github.com/DeanBrandner/ECC24_TR_improved_QN_PO_for_MPC_in_RL
DOI: 10.23919/ECC64448.2024.10590970
💡 一句话要点
提出基于信赖域拟牛顿策略优化的强化模型预测控制,提升数据效率和控制精度。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 模型预测控制 拟牛顿法 信赖域优化 策略优化
📋 核心要点
- 传统强化学习算法应用于参数化模型预测控制时,一阶更新收敛慢,需要大量数据。
- 本文提出信赖域约束的拟牛顿训练算法,利用参数化MPC参数少的特点,实现超线性收敛。
- 仿真结果表明,该算法在数据效率和控制精度上优于其他强化学习算法。
📝 摘要(中文)
本文提出了一种基于参数化模型预测控制器(MPC)的强化学习方法,旨在即使在模型不完善或预测范围较短的情况下,也能恢复最优控制性能。针对传统强化学习算法依赖一阶更新、收敛速度慢、需要大量动态数据的问题,本文利用参数化MPC所需参数较少的特点,提出了一种信赖域约束的拟牛顿训练算法,用于策略优化,该算法具有超线性收敛速度。研究表明,所需的二阶导数信息可以通过求解线性方程组来计算。仿真研究表明,所提出的训练算法在数据效率和精度方面优于其他算法。
🔬 方法详解
问题定义:论文旨在解决模型预测控制(MPC)在模型不准确或预测范围有限时性能下降的问题。现有的强化学习方法应用于参数化MPC时,通常采用一阶优化算法,收敛速度慢,需要大量的训练数据,限制了其在实际问题中的应用。
核心思路:论文的核心思路是利用参数化MPC的低维参数空间,采用二阶优化算法(拟牛顿法)进行策略优化,从而提高收敛速度和数据效率。通过信赖域约束,保证优化过程的稳定性。
技术框架:整体框架包括:1) 参数化模型预测控制器(MPC)作为策略;2) 强化学习环境,提供系统动态数据;3) 信赖域约束的拟牛顿优化算法,用于更新MPC的参数。算法迭代进行,直到策略收敛。
关键创新:关键创新在于将信赖域约束的拟牛顿法应用于参数化MPC的策略优化。与传统的一阶方法相比,拟牛顿法具有超线性收敛速度,能够显著提高数据效率。此外,论文还提出了一种计算二阶导数信息的有效方法,避免了直接计算Hessian矩阵的复杂性。
关键设计:论文的关键设计包括:1) 使用BFGS算法近似Hessian矩阵的逆;2) 采用信赖域方法约束参数更新的幅度,保证优化过程的稳定性;3) 通过求解线性方程组来计算拟牛顿更新方向,避免了直接计算矩阵逆的计算量。具体参数设置和损失函数的设计取决于具体的控制任务。
📊 实验亮点
仿真结果表明,所提出的信赖域拟牛顿训练算法在数据效率和控制精度方面优于其他强化学习算法。具体而言,该算法能够以更少的数据量达到与传统算法相当甚至更高的控制性能,显著降低了训练成本。
🎯 应用场景
该研究成果可应用于各种需要高精度和数据效率的控制场景,例如机器人控制、自动驾驶、过程控制等。特别是在模型不确定或难以精确建模的复杂系统中,该方法能够有效提升控制性能,降低开发成本,加速算法部署。
📄 摘要(原文)
Model predictive control can optimally deal with nonlinear systems under consideration of constraints. The control performance depends on the model accuracy and the prediction horizon. Recent advances propose to use reinforcement learning applied to a parameterized model predictive controller to recover the optimal control performance even if an imperfect model or short prediction horizons are used. However, common reinforcement learning algorithms rely on first order updates, which only have a linear convergence rate and hence need an excessive amount of dynamic data. Higher order updates are typically intractable if the policy is approximated with neural networks due to the large number of parameters. In this work, we use a parameterized model predictive controller as policy, and leverage the small amount of necessary parameters to propose a trust-region constrained Quasi-Newton training algorithm for policy optimization with a superlinear convergence rate. We show that the required second order derivative information can be calculated by the solution of a linear system of equations. A simulation study illustrates that the proposed training algorithm outperforms other algorithms in terms of data efficiency and accuracy.