Learning myopic mixed-integer nonlinear model predictive control from expert demonstrations

📄 arXiv: 2605.07401v1 📥 PDF

作者: Christopher Anthony Orrico, W. P. M. H. Heemels, Dinesh Krishnamoorthy

分类: eess.SY

发布日期: 2026-05-08

备注: Accepted proceedings 23rd IFAC World Congress, Busan Korea


💡 一句话要点

提出一种基于专家演示学习近视型混合整数非线性模型预测控制(MINMPC)的方法,以实现实时控制。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 模型预测控制 混合整数规划 逆向优化 价值函数近似 实时控制 非线性系统

📋 核心要点

  1. 混合整数非线性规划(MINLP)在线求解计算复杂度极高,严重限制了其在实时控制系统中的应用。
  2. 提出一种近视型MINMPC框架,通过离线学习价值函数来近似长时域最优解,从而大幅缩短在线预测时域。
  3. 该方法在Lotka-Volterra系统及卫星姿态控制中表现优异,在保持高性能的同时显著提升了实时计算效率。

📝 摘要(中文)

将非线性模型预测控制(NMPC)应用于具有混合动力或离散动作的系统时,通常会产生混合整数非线性规划(MINLP)问题,其在线求解的计算复杂度极高,限制了MINMPC的实际应用。本文提出了一种近视型(myopic)MINMPC框架,通过引入价值函数近似,显著降低了在线计算负担。该方法利用贝尔曼最优性原理,缩短了预测时域,并附加了一个通过逆向优化(基于最优性残差最小化)从专家状态-动作演示中离线学习得到的价值函数。该方法的一个核心特征是对离散决策的双重处理:在离线学习阶段松弛整数约束以实现基于KKT残差的价值函数合成,而在在线控制阶段强制执行整数约束以确保可行性。所学习的价值函数诱导出的策略与专家演示在策略上保持一致。实验结果表明,该控制器在较短的预测时域下实现了高性能,有效支持了MINMPC的实时运行,并在Lotka-Volterra捕鱼问题及离散执行器卫星姿态控制系统中得到了验证。

🔬 方法详解

问题定义:论文旨在解决混合整数非线性模型预测控制(MINMPC)在实时应用中面临的计算瓶颈。由于混合整数规划属于NP-hard问题,在线求解大规模MINLP往往无法满足实时控制的采样频率要求。

核心思路:引入“近视型”控制策略,通过贝尔曼最优性原理将长时域问题分解。利用离线学习的价值函数作为终端代价(Terminal Cost),补偿缩短预测时域带来的性能损失,从而将复杂的长时域规划转化为简单的短时域优化。

技术框架:方法分为离线与在线两个阶段。离线阶段通过逆向优化(Inverse Optimization)从专家演示中学习价值函数;在线阶段则利用该价值函数作为终端代价,求解一个规模较小的MINLP问题,并强制执行整数约束以保证系统可行性。

关键创新:提出了离散决策的双重处理机制。在离线学习阶段,通过松弛整数约束使得价值函数可以通过KKT残差进行可微合成;而在在线执行阶段,通过严格的整数约束确保控制动作的物理可行性,实现了学习效率与控制精度的平衡。

关键设计:采用基于最优性残差最小化(Optimality Residual Minimization)的逆向优化技术来拟合价值函数。该设计允许在不直接求解复杂MINLP的情况下,通过专家数据隐式地捕捉最优策略的结构特征,从而构建出有效的近似价值函数。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验在Lotka-Volterra捕鱼模型和离散执行器卫星姿态控制系统中进行了验证。结果显示,该方法在大幅缩短预测时域(例如从长时域缩短至极短时域)的情况下,仍能保持与全时域最优控制相近的闭环性能,且在线求解时间显著降低,成功实现了MINMPC的实时化部署,优于传统的启发式或长时域直接求解方法。

🎯 应用场景

该方法适用于具有离散执行器或混合动力特性的复杂控制系统,如卫星姿态控制、工业过程调度、电力系统优化及机器人运动规划。其核心价值在于通过离线学习降低在线计算需求,使高性能的混合整数控制策略能够部署在计算资源受限的嵌入式硬件上,推动复杂非线性系统的智能化控制。

📄 摘要(原文)

Applying nonlinear model predictive control (NMPC) to systems with hybrid dynamics or discrete actions typically yields mixed-integer nonlinear programs (MINLPs), whose real-time solution remains a major challenge and limits the applicability of mixed-integer NMPC (MINMPC). This paper proposes a myopic MINMPC framework that incorporates value-function approximation to substantially reduce the online computational burden. Using Bellman's principle of optimality, we shorten the prediction horizon and append a value function learned offline from expert state-action demonstrations via inverse optimization with optimality residual minimization. A central feature is the dual treatment of discrete decisions, whereby integer constraints are relaxed during offline learning to enable KKT-residual-based value function synthesis, while the online controller enforces the true integer constraints to ensure feasibility. The learned value function induces a policy that is approximately policy-consistent with the expert demonstrations. The resulting controller achieves high closed-loop performance with a significantly shorter horizon, enabling real-time MINMPC. The effectiveness of the approach is demonstrated on the Lotka-Volterra fishing problem and a satellite attitude control system with discrete actuators.