Fast Stochastic MPC using Affine Disturbance Feedback Gains Learned Offline
作者: Hotae Lee, Francesco Borrelli
分类: eess.SY
发布日期: 2024-11-21
备注: Submitted to L4DC 2025
💡 一句话要点
提出一种基于离线学习仿射扰动反馈增益的快速随机MPC方法,用于不确定线性系统。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 随机模型预测控制 仿射扰动反馈 离线学习 机会约束 数据驱动控制
📋 核心要点
- 传统随机MPC计算复杂度高,难以在线应用,尤其是在高维和快速动态系统中。
- 该论文提出离线学习扰动反馈增益特征,简化在线优化问题,降低计算负担。
- 实验结果表明,该方法在保证控制性能的同时,计算速度提升了10倍。
📝 摘要(中文)
本文提出了一种新颖的随机模型预测控制(MPC)方法,用于处理受概率约束的不确定线性系统。该方法利用离线学习提取仿射扰动反馈策略的关键特征,从而显著降低在线优化的计算负担。具体而言,我们采用离线数据驱动采样来学习反馈增益的特征分量,并以指定的置信水平逼近机会约束可行集。通过利用这些学习到的信息,在线MPC问题被简化为对标称输入和缩减的学习反馈增益集的优化,从而确保计算效率。数值实验表明,与优化扰动反馈策略的经典MPC相比,所提出的MPC方法在吸引域(ROA)和平均闭环成本方面实现了相当的控制性能,同时计算速度提高了10倍。
🔬 方法详解
问题定义:论文旨在解决具有概率约束的不确定线性系统的模型预测控制问题。传统的随机MPC方法,尤其是那些直接优化扰动反馈策略的方法,计算复杂度非常高,难以满足在线实时控制的需求。现有的方法通常需要大量的计算资源来处理不确定性,这限制了它们在实际应用中的可行性。
核心思路:论文的核心思路是通过离线学习来提取扰动反馈增益的关键特征,从而降低在线优化的维度和计算量。具体来说,通过离线数据驱动的采样,学习反馈增益的特征分量,并近似机会约束可行集。这样,在线MPC问题就可以简化为对标称输入和缩减的反馈增益集的优化。
技术框架:该方法主要包含两个阶段:离线学习阶段和在线优化阶段。在离线学习阶段,通过数据驱动的采样方法,学习仿射扰动反馈策略的特征分量,并构建机会约束可行集的近似表示。在线优化阶段,利用离线学习到的信息,将MPC问题简化为对标称输入和缩减的反馈增益集的优化问题。在线优化器根据当前状态和环境信息,计算最优的控制输入和反馈增益。
关键创新:该方法最重要的创新点在于利用离线学习来降低在线MPC的计算复杂度。与传统的直接优化扰动反馈策略的MPC方法相比,该方法通过学习反馈增益的特征分量,显著降低了在线优化的维度,从而提高了计算效率。此外,该方法还提供了一种近似机会约束可行集的有效方法。
关键设计:论文的关键设计包括:1) 采用数据驱动的采样方法来学习反馈增益的特征分量;2) 使用特定的置信水平来近似机会约束可行集;3) 设计一种有效的在线优化算法,以在简化的优化空间中找到最优解。具体的参数设置和损失函数选择可能依赖于具体的系统模型和约束条件。
📊 实验亮点
实验结果表明,所提出的MPC方法在吸引域(ROA)和平均闭环成本方面实现了与优化扰动反馈策略的经典MPC相当的控制性能,同时计算速度提高了10倍。这一显著的计算效率提升使得该方法更适用于实际应用。
🎯 应用场景
该研究成果可应用于各种需要处理不确定性和概率约束的控制场景,例如机器人导航、自动驾驶、电力系统控制和过程控制等。通过降低在线计算负担,该方法使得随机MPC能够应用于对实时性要求较高的系统中,具有重要的实际应用价值和潜力。
📄 摘要(原文)
We propose a novel Stochastic Model Predictive Control (MPC) for uncertain linear systems subject to probabilistic constraints. The proposed approach leverages offline learning to extract key features of affine disturbance feedback policies, significantly reducing the computational burden of online optimization. Specifically, we employ offline data-driven sampling to learn feature components of feedback gains and approximate the chance-constrained feasible set with a specified confidence level. By utilizing this learned information, the online MPC problem is simplified to optimization over nominal inputs and a reduced set of learned feedback gains, ensuring computational efficiency. In a numerical example, the proposed MPC approach achieves comparable control performance in terms of Region of Attraction (ROA) and average closed-loop costs to classical MPC optimizing over disturbance feedback policies, while delivering a 10-fold improvement in computational speed.