Bilinear Mamba-Koopman Neural MPC for Varying Dynamics

📄 arXiv: 2605.04793v1 📥 PDF

作者: Matan Pagi, Zohar Sorek

分类: cs.LG, math.OC

发布日期: 2026-05-06

备注: 18 pages, 5 figures. Preprint


💡 一句话要点

提出Bilinear Mamba-Koopman Neural MPC,通过控制依赖的潜在动力学提升时变环境下的MPC性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 模型预测控制 Koopman算子 双线性系统 时变动力学 序列凸规划

📋 核心要点

  1. 传统Koopman神经MPC模型在时变环境下适应性受限,无法有效利用控制输入信息。
  2. Bilinear Mamba-Koopman Neural MPC通过引入控制依赖的潜在动力学,使模型能根据当前输入调整系统算子。
  3. 实验表明,该模型在时变CartPole和RSCP任务中提高了预测精度和鲁棒性,尤其在延迟重规划时表现更佳。

📝 摘要(中文)

基于Koopman的神经MPC模型从历史数据中生成时变动力学,但通过强制系统算子独立于当前控制输入来保持凸性。这种条件独立性约束限制了在单个MPC范围内适应变化动力学,特别是在时变条件下和陈旧计划执行下。我们提出了Bilinear Mamba-Koopman Neural MPC,这是一个最小的扩展,在潜在动力学中引入了控制依赖的耦合,允许有效算子适应当前输入。由此产生的模型是标准线性条件独立公式的严格推广,通过低秩结构增加了不到1%的参数,并允许精确的模型雅可比矩阵,从而在标准信任区域假设下,通过单调下降和KKT收敛结果实现高效的序列凸规划(SCP)。在时不变和时变状态下的CartPole和RSCP基准测试中,当训练噪声被平均掉时,所提出的模型在每个单元格上匹配或提高了预测精度,在控制-状态耦合结构性存在的情况下获得了严格的增益。其主要的闭环增益出现在RSCP TV任务中,其中迭代SCP改善了范围内的适应性并大大稳定了训练;在CartPole TV中,增益适中但一致。在时变变体的延迟重新规划实验中,双线性模型在陈旧计划执行下能更优雅地降级,在CartPole TV上保持一致的优势,并在RSCP TV上保持更大的鲁棒性裕度。这些结果表明,控制依赖的潜在动力学为变化条件下的鲁棒MPC提供了一种简单有效的机制。

🔬 方法详解

问题定义:现有基于Koopman算子的神经MPC方法,为了保证优化问题的凸性,通常假设系统动力学算子与控制输入相互独立。这种假设在系统动力学随时间变化或受到控制输入直接影响时会失效,导致模型预测精度下降,MPC性能受限。尤其是在实际应用中,控制指令的执行往往存在延迟,陈旧的控制计划会进一步加剧这一问题。

核心思路:论文的核心思路是在Koopman算子的基础上引入双线性项,使得潜在动力学能够显式地依赖于控制输入。具体来说,通过一个低秩的双线性变换,将控制输入与Koopman算子进行耦合,从而允许模型根据当前的控制输入动态调整系统动力学。这种方法既保留了Koopman算子的线性特性,又增强了模型对时变动力学的适应能力。

技术框架:该方法基于Koopman神经MPC框架,主要包含以下几个模块:1)编码器:将原始状态输入映射到高维的Koopman空间;2)双线性Koopman算子:利用双线性变换将控制输入与Koopman算子进行耦合,实现控制依赖的潜在动力学;3)解码器:将Koopman空间的状态映射回原始状态空间;4)MPC优化器:利用序列凸规划(SCP)求解最优控制序列。整体流程为:首先,利用编码器将当前状态映射到Koopman空间;然后,利用双线性Koopman算子预测未来状态;最后,利用解码器将Koopman空间的状态映射回原始状态空间,并利用MPC优化器求解最优控制序列。

关键创新:该论文最重要的技术创新点在于引入了控制依赖的Koopman算子。与传统的Koopman神经MPC方法相比,该方法能够显式地建模控制输入对系统动力学的影响,从而提高了模型对时变动力学的适应能力。此外,该方法还利用低秩结构来降低双线性项的参数量,避免了模型复杂度过高的问题。

关键设计:论文中,双线性项采用低秩分解实现,显著减少了参数量,使得模型参数增加小于1%。损失函数主要包括预测误差和控制惩罚项。MPC优化器采用序列凸规划(SCP),利用模型的精确雅可比矩阵,保证了单调下降和KKT收敛。信任区域方法用于约束SCP的迭代步长,保证算法的稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在CartPole和RSCP任务中,该模型在时变环境下显著提高了预测精度和鲁棒性。在RSCP TV任务中,迭代SCP显著改善了适应性并稳定了训练。在延迟重规划实验中,该模型在CartPole TV上保持了一致的优势,并在RSCP TV上保持了更大的鲁棒性裕度。与基线模型相比,该模型在训练噪声平均掉的情况下,在每个单元格上匹配或提高了预测精度。

🎯 应用场景

该研究成果可应用于机器人控制、自动驾驶、过程控制等领域,尤其适用于系统动力学随时间变化或受到控制输入直接影响的场景。通过提高MPC的鲁棒性和适应性,可以提升控制系统的性能和安全性,例如在复杂地形下的机器人导航、交通拥堵环境下的自动驾驶等。

📄 摘要(原文)

Koopman-based neural MPC models generate time-varying dynamics from historical data, but preserve convexity by enforcing that the system operator is independent of the current control input. This conditional independence constraint limits adaptation to changing dynamics within a single MPC horizon, particularly under time-varying conditions and under stale-plan execution. We propose Bilinear Mamba-Koopman Neural MPC, a minimal extension that introduces control-dependent coupling in the latent dynamics, allowing the effective operator to adapt to the current input. The resulting model is a strict generalization of the standard linear, conditional-independence formulation, adds less than 1% parameters through a low-rank structure, and admits exact model Jacobians that enable efficient Sequential Convex Programming (SCP) with monotone-descent and KKT convergence results under standard trust-region assumptions. Across CartPole and RSCP benchmarks in time-invariant and time-varying regimes, the proposed model matches or improves forecasting accuracy on every cell when training noise is averaged out, with strict gains where control-state coupling is structurally present. Its main closed-loop gains appear in the RSCP TV task, where iterative SCP improves adaptation within the horizon and substantially stabilizes training; in CartPole TV, the gains are modest but consistent. In delayed re-planning experiments on the time-varying variants, the bilinear model degrades more gracefully under stale-plan execution, maintaining a consistent advantage on CartPole TV and a substantially larger robustness margin on RSCP TV. These results show that control-dependent latent dynamics provide a simple and effective mechanism for robust MPC under varying conditions.