AC4MPC: Actor-Critic Reinforcement Learning for Nonlinear Model Predictive Control

📄 arXiv: 2406.03995v1 📥 PDF

作者: Rudolf Reiter, Andrea Ghezzi, Katrin Baumgärtner, Jasper Hoffmann, Robert D. McAllister, Moritz Diehl

分类: eess.SY, cs.AI

发布日期: 2024-06-06


💡 一句话要点

提出AC4MPC算法,利用Actor-Critic强化学习提升非线性模型预测控制性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 模型预测控制 强化学习 Actor-Critic 非线性控制 自动驾驶

📋 核心要点

  1. 传统MPC依赖精确模型和良好初始猜测,但在复杂非线性系统中表现受限,鲁棒性不足。
  2. 利用Actor-Critic强化学习近似最优价值函数,为MPC提供更优初始猜测,加速求解并提升性能。
  3. 实验表明,该方法在玩具示例和自动驾驶场景中有效,验证了其在复杂控制任务中的潜力。

📝 摘要(中文)

本文提出了一种利用Actor-Critic强化学习技术来提升模型预测控制(MPC)性能的方法。RL Critic被用作最优价值函数的近似,而Actor的roll-out提供MPC原始变量的初始猜测。论文提出了一种并行控制架构,其中每个MPC实例针对不同的初始猜测被求解两次,分别使用Actor roll-out初始化和来自先前解的移位初始化。之后,再次使用Actor和Critic来近似评估这些轨迹的无限时域成本。在每个时间步,将来自最低成本轨迹的控制动作应用于系统。论文证明,所提出的算法保证优于原始RL策略,误差项取决于Critic的准确性,并随着MPC公式的horizon长度而衰减。此外,该保证的成立不需要全局最优解。该方法在一个说明性的玩具示例和一个自动驾驶超车场景中得到了验证。

🔬 方法详解

问题定义:论文旨在解决非线性模型预测控制(MPC)在复杂动态系统中的应用问题。传统MPC方法对模型精度和初始猜测敏感,在面对高维状态空间、非线性动力学和不确定性时,求解效率和控制性能会显著下降。现有方法难以在保证实时性的前提下,获得全局最优解,导致控制效果不佳。

核心思路:论文的核心思路是将强化学习(RL)的Actor-Critic方法与MPC相结合,利用RL学习到的价值函数作为MPC的先验信息,从而改善MPC的初始猜测,加速求解过程,并提高控制性能。通过Actor网络生成控制策略,Critic网络评估策略的价值,两者协同优化,为MPC提供更准确的初始状态和控制序列。

技术框架:AC4MPC的整体架构是一个并行控制框架。首先,Actor网络根据当前状态生成一个控制序列,作为MPC的初始猜测。同时,利用前一个时间步的MPC解进行移位,得到另一个初始猜测。然后,MPC针对这两个初始猜测分别进行求解,得到两个候选控制轨迹。接着,利用Actor和Critic网络评估这两个轨迹的长期成本。最后,选择成本最低的轨迹的控制动作应用于系统。

关键创新:该方法最重要的创新点在于将强化学习的全局优化能力与MPC的局部优化能力相结合。传统MPC依赖于精确的模型和良好的初始猜测,而AC4MPC通过RL学习价值函数,为MPC提供更优的初始猜测,从而加速求解过程,并提高控制性能。此外,该方法不需要全局最优解,降低了对求解器的要求,提高了实时性。

关键设计:论文的关键设计包括:1) 使用Actor-Critic算法学习价值函数,Actor网络生成控制策略,Critic网络评估策略的价值;2) 采用并行控制架构,同时利用Actor roll-out和移位初始化为MPC提供初始猜测;3) 使用Actor和Critic网络评估候选轨迹的长期成本,选择成本最低的轨迹的控制动作应用于系统;4) 论文证明了算法的性能下界,表明其优于原始RL策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过玩具示例和自动驾驶超车场景验证了AC4MPC算法的有效性。实验结果表明,该算法能够显著提高MPC的控制性能,并加速求解过程。在自动驾驶超车场景中,AC4MPC算法能够更安全、更高效地完成超车任务,验证了其在复杂控制任务中的潜力。论文还从理论上证明了算法的性能下界,保证了其优于原始RL策略。

🎯 应用场景

AC4MPC算法具有广泛的应用前景,例如自动驾驶、机器人控制、过程控制等领域。在自动驾驶中,可以用于车辆的路径规划和轨迹跟踪,提高车辆的行驶安全性和舒适性。在机器人控制中,可以用于机器人的运动规划和控制,提高机器人的灵活性和适应性。在过程控制中,可以用于化工过程的优化控制,提高生产效率和产品质量。该研究有望推动复杂动态系统的智能化控制水平。

📄 摘要(原文)

\Ac{MPC} and \ac{RL} are two powerful control strategies with, arguably, complementary advantages. In this work, we show how actor-critic \ac{RL} techniques can be leveraged to improve the performance of \ac{MPC}. The \ac{RL} critic is used as an approximation of the optimal value function, and an actor roll-out provides an initial guess for primal variables of the \ac{MPC}. A parallel control architecture is proposed where each \ac{MPC} instance is solved twice for different initial guesses. Besides the actor roll-out initialization, a shifted initialization from the previous solution is used. Thereafter, the actor and the critic are again used to approximately evaluate the infinite horizon cost of these trajectories. The control actions from the lowest-cost trajectory are applied to the system at each time step. We establish that the proposed algorithm is guaranteed to outperform the original \ac{RL} policy plus an error term that depends on the accuracy of the critic and decays with the horizon length of the \ac{MPC} formulation. Moreover, we do not require globally optimal solutions for these guarantees to hold. The approach is demonstrated on an illustrative toy example and an \ac{AD} overtaking scenario.