On Architectures for Combining Reinforcement Learning and Model Predictive Control with Runtime Improvements

作者: Xiaolong Jia, Nikhil Bajaj

分类: eess.SY

发布日期: 2025-10-02

备注: Accepted at the 2025 IFAC Conference on Modeling, Estimation, and Control of Systems (MECC 2025), Pittsburgh, USA

💡 一句话要点

提出结合强化学习与模型预测控制的新架构以提升运行效率

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 模型预测控制 强化学习 神经网络 控制系统 动态环境 性能优化

📋 核心要点

核心问题：现有的模型预测控制方法在计算需求和模型不准确性方面存在显著挑战，导致性能下降。
方法要点：提出Warm Start RL和RLMPC两种架构，通过强化学习优化NNMPC的性能，提升控制效果。
实验或效果：在旋转倒立摆的实验中，提出的方法在运行时间上减少超过99%，并实现11%-40%的成本降低。

📝 摘要（中文）

模型预测控制（MPC）在面对计算需求和模型不准确性时，常常会出现性能下降的问题。本文提出了两种将神经网络近似的MPC（NNMPC）与强化学习（RL）相结合的架构。第一种架构，Warm Start RL，通过预训练的NNMPC权重初始化RL演员。第二种架构，RLMPC，利用RL生成NNMPC输出的修正残差。我们还引入了一种下采样方法，减少NNMPC输入维度，同时保持性能。在对旋转倒立摆的评估中，这两种架构在运行时间上相比传统MPC减少超过99%，并在模型不确定性下改善了跟踪性能，RL+MPC的成本降低幅度在11%-40%之间，具体取决于参考幅度。

🔬 方法详解

问题定义：本文旨在解决模型预测控制（MPC）在计算复杂性和模型不准确性导致的性能下降问题。现有的MPC方法在面对动态环境时，往往无法有效应对模型的不确定性，影响控制效果。

核心思路：论文提出的核心思路是将神经网络近似的MPC（NNMPC）与强化学习（RL）相结合，通过预训练和残差修正来提升控制性能。Warm Start RL通过初始化RL演员的权重来加速学习，而RLMPC则通过RL生成修正残差，增强NNMPC的输出。

技术框架：整体架构包括两个主要模块：首先是NNMPC模块，负责生成初步控制输出；其次是RL模块，负责生成修正残差并优化NNMPC的输出。通过下采样技术，减少NNMPC的输入维度，提高计算效率。

关键创新：最重要的技术创新在于将强化学习与NNMPC有效结合，提出Warm Start RL和RLMPC两种新架构，显著提升了控制性能和计算效率。这种结合方式在现有方法中尚属首次。

关键设计：在设计中，采用了预训练的NNMPC权重作为RL演员的初始化参数，并通过强化学习生成的残差来修正NNMPC的输出。此外，下采样方法的引入有效降低了输入维度，确保了性能的同时提升了计算速度。

🖼️ 关键图片

📊 实验亮点

实验结果显示，提出的Warm Start RL和RLMPC架构在旋转倒立摆的控制任务中，运行时间减少超过99%，同时在模型不确定性下的跟踪性能显著提升。RL+MPC方法的成本降低幅度在11%-40%之间，具体取决于参考幅度，展现了显著的性能优势。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶、机器人控制和工业自动化等。通过提升模型预测控制的效率和鲁棒性，能够在动态和不确定的环境中实现更高效的决策和控制，具有重要的实际价值和广泛的应用前景。

📄 摘要（原文）

Model Predictive Control (MPC) faces computational demands and performance degradation from model inaccuracies. We propose two architectures combining Neural Network-approximated MPC (NNMPC) with Reinforcement Learning (RL). The first, Warm Start RL, initializes the RL actor with pre-trained NNMPC weights. The second, RLMPC, uses RL to generate corrective residuals for NNMPC outputs. We introduce a downsampling method reducing NNMPC input dimensions while maintaining performance. Evaluated on a rotary inverted pendulum, both architectures demonstrate runtime reductions exceeding 99% compared to traditional MPC while improving tracking performance under model uncertainties, with RL+MPC achieving 11-40% cost reduction depending on reference amplitude.

On Architectures for Combining Reinforcement Learning and Model Predictive Control with Runtime Improvements

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理