Learning-Based Model Predictive Control for Piecewise Affine Systems with Feasibility Guarantees

📄 arXiv: 2412.00490v2 📥 PDF

作者: Samuel Mallick, Azita Dabiri, Bart De Schutter

分类: eess.SY

发布日期: 2024-11-30 (更新: 2025-03-26)

备注: 6 pages, 3 figures, accepted for publication in ECC 2025. Code available at https://github.com/SamuelMallick/supervised-learning-pwa-mpc


💡 一句话要点

提出一种基于学习的PWA系统模型预测控制方法,保证可行性并降低计算复杂度。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 模型预测控制 分段仿射系统 强化学习 可行性保证 混合系统

📋 核心要点

  1. 在线PWA系统MPC计算量大,显式MPC则面临存储和离线计算的挑战。
  2. 提出离线学习策略来预先确定PWA区域序列,降低在线优化复杂度。
  3. 通过可验证条件保证策略可行性,并采用迭代训练数据生成方法提高学习效率。

📝 摘要(中文)

针对分段仿射(PWA)系统的在线模型预测控制(MPC),需要在线求解一个优化问题,该问题隐式地优化PWA区域的切换序列,这可能导致计算负担过重。显式MPC可以将计算转移到离线进行,但在线内存需求和离线计算量可能会变得过大。本文提出了一种介于在线和显式MPC之间的解决方案,通过部分地将计算分配到在线和离线来解决上述问题。为了解决底层的MPC问题,离线学习的策略指定了动力学必须遵循的PWA区域序列,从而降低了仅对连续状态和控制输入进行求解的剩余优化问题的复杂性。我们提供了一个在学习过程中可验证的条件,保证学习策略输出的可行性,使得总能在线找到最优的连续控制输入。此外,一种用于离线迭代生成训练数据的方法可以有效地学习可行策略,从而减少离线计算负担。数值实验表明,该方法与在线和显式MPC相比都具有有效性。

🔬 方法详解

问题定义:针对分段仿射(PWA)系统的模型预测控制(MPC)问题,目标是在满足约束条件下,找到最优的控制输入序列,使得系统状态按照期望轨迹运行。传统的在线MPC方法需要实时求解复杂的优化问题,计算量大,难以满足实时性要求。显式MPC虽然可以将大部分计算转移到离线进行,但其存储需求随着状态空间维度的增加呈指数增长,且离线计算量也十分巨大。因此,需要一种能够在计算复杂度和存储需求之间取得平衡的MPC方法。

核心思路:论文的核心思路是利用离线学习的方法,预先学习一个策略,该策略能够根据当前状态,预测未来一段时间内系统应该遵循的PWA区域序列。通过预先确定PWA区域序列,可以将在线优化问题简化为仅关于连续状态和控制输入的优化问题,从而大大降低了在线计算的复杂度。同时,由于策略是离线学习的,因此可以避免显式MPC的存储问题。

技术框架:该方法主要包含两个阶段:离线学习阶段和在线控制阶段。在离线学习阶段,首先通过迭代生成训练数据,然后利用这些数据训练一个策略网络,该网络能够预测PWA区域序列。在在线控制阶段,首先利用学习到的策略网络预测PWA区域序列,然后将该序列作为约束条件,求解一个关于连续状态和控制输入的优化问题,得到最优的控制输入。

关键创新:该方法最重要的创新点在于将离线学习和在线优化相结合,通过离线学习预先确定PWA区域序列,从而降低了在线优化的复杂度。此外,论文还提出了一个可验证的条件,用于保证学习到的策略输出的可行性,即保证总能在线找到满足约束条件的控制输入。

关键设计:论文的关键设计包括:(1) 迭代训练数据生成方法,用于高效地生成训练数据;(2) 可验证的可行性条件,用于保证学习到的策略的可靠性;(3) 策略网络的结构和损失函数,用于有效地学习PWA区域序列。具体的网络结构和损失函数在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0

📊 实验亮点

数值实验表明,该方法在计算时间和存储空间方面都优于传统的在线MPC和显式MPC。具体性能数据未知,但论文强调了其在计算效率上的显著提升,使得更复杂的PWA系统能够实现实时控制。

🎯 应用场景

该方法可应用于各种分段仿射系统的控制,例如混合动力汽车的能量管理、机器人运动规划、以及电力系统的优化调度等。通过降低在线计算复杂度,该方法能够提高控制系统的实时性和鲁棒性,使其能够更好地适应动态变化的环境。

📄 摘要(原文)

Online model predictive control (MPC) for piecewise affine (PWA) systems requires the online solution to an optimization problem that implicitly optimizes over the switching sequence of PWA regions, for which the computational burden can be prohibitive. Alternatively, the computation can be moved offline using explicit MPC; however, the online memory requirements and the offline computation can then become excessive. In this work we propose a solution in between online and explicit MPC, addressing the above issues by partially dividing the computation between online and offline. To solve the underlying MPC problem, a policy, learned offline, specifies the sequence of PWA regions that the dynamics must follow, thus reducing the complexity of the remaining optimization problem that solves over only the continuous states and control inputs. We provide a condition, verifiable during learning, that guarantees feasibility of the learned policy's output, such that an optimal continuous control input can always be found online. Furthermore, a method for iteratively generating training data offline allows the feasible policy to be learned efficiently, reducing the offline computational burden. A numerical experiment demonstrates the effectiveness of the method compared to both online and explicit MPC.