Performance guaranteed MPC Policy Approximation via Cost Guided Learning

作者: Chenchen Zhou, Yi Cao, Shuang-hua Yang

分类: math.OC, eess.SY

发布日期: 2026-05-07

期刊: IEEE Control Systems Letters, 2024, 8: 346-351

DOI: 10.1109/LCSYS.2024.3379115

💡 一句话要点

提出基于代价引导学习的MPC策略近似方法，以实现闭环性能的最优性保证。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 模型预测控制 策略近似 代价引导学习 闭环性能优化 数据驱动控制 神经网络控制

📋 核心要点

现有方法仅关注拟合误差最小化，忽略了控制系统本质上应以最小化运行成本为目标的根本需求。
提出代价引导学习框架，通过引入MPC问题的代价敏感性信息，直接优化闭环性能损失函数。
在CSTR基准测试中，该方法在闭环性能上表现出显著优于传统误差引导学习的控制效果。

📝 摘要（中文）

模型预测控制（MPC）在工业界应用广泛，但受限于硬件算力或实时性要求，其实施面临挑战。一种有前景的方案是利用神经网络等函数近似器来拟合MPC策略。现有方法主要关注最小化训练数据中近似器输出与MPC最优控制动作之间的拟合误差，即“误差引导学习”。然而，控制律设计的根本目标并非最小化拟合误差，而是最小化运行成本。本文提出了一种新颖的“代价引导学习”方法，利用MPC问题的代价敏感性信息，直接最小化闭环性能损失。理论分析表明，与传统的误差引导学习相比，代价引导学习在最优性损失方面提供了更严格的保证。在连续搅拌釜反应器（CSTR）基准测试上的实验表明，该技术生成的近似MPC策略实现了显著更优的闭环性能。这项工作通过将拟合误差与运行目标相结合，克服了现有近似方法的关键局限，其核心思想可广泛应用于数据驱动控制领域。

🔬 方法详解

问题定义：现有MPC策略近似方法主要采用监督学习范式，即最小化神经网络输出与MPC最优动作之间的均方误差。这种方法忽略了控制动作对系统长期运行成本的影响，导致即使拟合误差较小，闭环系统的实际性能也可能较差。

核心思路：论文提出将控制目标直接纳入学习过程。通过利用MPC优化问题的代价函数梯度（即代价敏感性信息），将原本的“动作拟合”问题转化为“性能优化”问题，从而确保近似策略在闭环控制下具有更好的性能表现。

技术框架：该方法首先通过MPC求解器获取训练数据集，随后计算代价函数关于控制输入的敏感性矩阵（Jacobian），构建代价加权的损失函数，最后通过反向传播训练神经网络近似器，使其在关注高代价区域的同时最小化整体运行成本。

关键创新：最重要的创新在于引入了代价敏感性信息作为学习的引导信号。与传统方法仅关注动作空间的欧氏距离不同，该方法在动作空间中引入了基于系统动力学和代价函数的加权，实现了从“拟合导向”到“性能导向”的范式转变。

关键设计：核心设计在于损失函数的重构，即在损失项中引入代价函数的二阶导数或敏感性信息，使得网络在训练时能够感知到不同控制动作对系统性能的差异化影响，从而在保证计算效率的同时，提供更严格的最优性损失界限。

🖼️ 关键图片

📊 实验亮点

实验在CSTR基准测试中进行，对比了传统的误差引导学习方法。结果显示，代价引导学习在闭环运行成本上实现了显著降低，且在系统状态扰动下表现出更强的鲁棒性。理论分析进一步证明，该方法在最优性损失界限上比传统方法更为紧致，验证了其在复杂动态系统中的优越性。

🎯 应用场景

该方法适用于计算资源受限的工业控制场景，如化工过程控制、机器人轨迹跟踪及电力系统调度。通过将复杂的MPC策略离线蒸馏为轻量级神经网络，可实现毫秒级的实时控制响应，同时保持接近最优的闭环控制性能，具有极高的工业应用价值。

📄 摘要（原文）

Model predictive control (MPC) is widely used in industries but implementing it poses challenges due to hardware or time constraints. A promising solution is to approximate the MPC policy using function approximators like neural networks. Existing methods focus on minimizing the error between the approximators outputs and the MPC optimal control actions on training data, which is called error guided learning approach in this paper. However, the goals of control law design is not to minimize the fitting error but to minimize the operation cost. This paper proposes a novel cost-guided learning approach that utilizes the cost sensitivity information from the MPC problem to directly minimize the loss in closed-loop performance. A theoretical analysis shows cost-guided learning provides tighter guarantees on optimality loss compared to traditional error-guided learning. Experiments on a continuous stirred tank reactor (CSTR) benchmark demonstrate that the proposed technique results in approximate MPC policies that achieve substantially better closed-loop performance. This work makes an important contribution by connecting the fitting errors with operational objectives, overcoming key limitations of existing approximation methods. The core idea could be applied more broadly for data-driven control.

Performance guaranteed MPC Policy Approximation via Cost Guided Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理