Convergent NMPC-based Reinforcement Learning Using Deep Expected Sarsa and Nonlinear Temporal Difference Learning

作者: Amine Salaje, Thomas Chevet, Nicolas Langlois

分类: eess.SY, cs.RO

发布日期: 2025-02-07 (更新: 2025-04-22)

💡 一句话要点

提出基于深度期望Sarsa和非线性时间差分学习的收敛NMPC强化学习方法

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 非线性模型预测控制 强化学习 深度期望Sarsa 时间差分学习 神经网络 最优控制 机器人控制

📋 核心要点

现有基于NMPC的强化学习方法在非线性系统函数逼近时存在参数发散和不稳定问题。
利用深度期望Sarsa和非线性时间差分学习，学习NMPC的最优权重，并使用神经网络近似动作价值函数。
仿真结果表明，该方法能够收敛到局部最优解，且没有出现不稳定的情况，并降低了计算负担。

📝 摘要（中文）

本文提出了一种基于学习的非线性模型预测控制器(NMPC)，该控制器使用一种原创的强化学习(RL)方法来学习NMPC方案的最优权重，并提出了两种方法。首先，控制器被用作深度期望Sarsa的当前动作价值函数，其中后续的动作价值函数（通常用辅助NMPC获得）用神经网络(NN)近似。相对于现有方法，我们将NMPC学习参数的当前值添加到NN的输入中，以便网络能够近似动作价值函数并稳定学习性能。此外，通过使用NN，实时计算负担大约减少了一半，而不会影响闭环性能。其次，我们将梯度时间差分方法与参数化的NMPC相结合，作为期望Sarsa RL方法的一个函数逼近器，以克服函数逼近中存在非线性时潜在的参数发散和不稳定问题。仿真结果表明，该方法收敛于局部最优解，且没有不稳定问题。

🔬 方法详解

问题定义：论文旨在解决非线性模型预测控制（NMPC）中，如何利用强化学习方法优化控制器参数，并克服传统方法在处理非线性系统时可能出现的参数发散和不稳定问题。现有方法通常依赖于复杂的二次规划求解器，计算负担重，并且在非线性较强的系统中难以保证收敛性。

核心思路：论文的核心思路是将NMPC作为强化学习中的策略，利用深度期望Sarsa算法学习NMPC的最优权重。为了解决非线性问题，引入神经网络来近似动作价值函数，并结合非线性时间差分学习方法，以提高学习的稳定性和收敛性。

技术框架：整体框架包含两个主要部分：1) 基于深度期望Sarsa的NMPC学习：使用NMPC作为当前策略，神经网络近似后续动作价值函数，并加入NMPC参数的当前值作为神经网络的输入，以稳定学习过程。2) 基于梯度时间差分的NMPC学习：将梯度时间差分方法与参数化的NMPC结合，作为期望Sarsa RL方法的函数逼近器。

关键创新：论文的关键创新在于：1) 将NMPC参数的当前值加入神经网络的输入，显著提升了神经网络近似动作价值函数的能力，并稳定了学习过程。2) 结合深度期望Sarsa和非线性时间差分学习，克服了传统方法在非线性系统中的参数发散问题。3) 使用神经网络近似动作价值函数，降低了实时计算负担。

关键设计：在深度期望Sarsa方法中，神经网络的输入包括状态、动作以及NMPC的参数。损失函数采用均方误差损失，优化目标是最小化预测的动作价值函数与目标动作价值函数之间的差异。在梯度时间差分方法中，使用参数化的NMPC作为函数逼近器，并通过梯度下降法更新NMPC的参数。

🖼️ 关键图片

📊 实验亮点

仿真结果表明，所提出的方法能够收敛到局部最优解，且没有出现不稳定的情况。此外，通过使用神经网络近似动作价值函数，实时计算负担大约减少了一半，而不会影响闭环性能。这表明该方法在保证控制性能的同时，显著降低了计算复杂度。

🎯 应用场景

该研究成果可应用于各种需要精确控制的非线性系统，例如机器人控制、自动驾驶、过程控制等。通过学习最优的NMPC参数，可以提高控制系统的性能、稳定性和鲁棒性，并降低计算成本，从而实现更高效、更可靠的控制。

📄 摘要（原文）

In this paper, we present a learning-based nonlinear model predictive controller (NMPC) using an original reinforcement learning (RL) method to learn the optimal weights of the NMPC scheme, for which two methods are proposed. Firstly, the controller is used as the current action-value function of a deep Expected Sarsa where the subsequent action-value function, usually obtained with a secondary NMPC, is approximated with a neural network (NN). With respect to existing methods, we add to the NN's input the current value of the NMPC's learned parameters so that the network is able to approximate the action-value function and stabilize the learning performance. Additionally, with the use of the NN, the real-time computational burden is approximately halved without affecting the closed-loop performance. Secondly, we combine gradient temporal difference methods with a parametrized NMPC as a function approximator of the Expected Sarsa RL method to overcome the potential parameters' divergence and instability issues when nonlinearities are present in the function approximation. The simulation results show that the proposed approach converges to a locally optimal solution without instability problems.

Convergent NMPC-based Reinforcement Learning Using Deep Expected Sarsa and Nonlinear Temporal Difference Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理