Towards Safe Learning-Based Non-Linear Model Predictive Control through Recurrent Neural Network Modeling

📄 arXiv: 2603.24503v1 📥 PDF

作者: Mihaela-Larisa Clement, Mónika Farsang, Agnes Poks, Johannes Edelmann, Manfred Plöchl, Radu Grosu, Ezio Bartocci

分类: cs.LG, cs.RO, eess.SY

发布日期: 2026-03-25


💡 一句话要点

提出基于循环神经网络建模的安全学习非线性模型预测控制方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 非线性模型预测控制 循环神经网络 强化学习 安全控制 嵌入式系统

📋 核心要点

  1. 传统NMPC在线计算负担重,难以在嵌入式系统上实时部署,尤其是在复杂模型和长预测时域下。
  2. Sequential-AMPC通过循环神经网络共享参数生成候选控制序列,降低了对大量专家数据的依赖,并提升了学习效率。
  3. Safe Sequential-AMPC通过安全增强的在线评估和回退机制,保证了闭环系统的安全性,并在高维系统上表现出更好的性能。

📝 摘要(中文)

非线性模型预测控制(NMPC)的实际部署常受限于在线计算量:在高控制频率下求解非线性规划在嵌入式硬件上可能代价高昂,尤其当模型复杂或预测范围长时。基于学习的NMPC近似方法将计算转移到离线,但通常需要大量的专家数据集和昂贵的训练。我们提出Sequential-AMPC,一种顺序神经策略,通过在预测范围内共享参数来生成MPC候选控制序列。在部署时,我们将该策略封装在一个安全增强的在线评估和回退机制中,从而产生Safe Sequential-AMPC。与多个基准测试中的简单前馈策略相比,Sequential-AMPC需要明显更少的专家MPC轨迹,并产生具有更高可行性率和改进的闭环安全性的候选序列。在高维系统上,它还在更少的epoch中表现出更好的学习动态和性能,同时保持稳定的验证改进,而前馈基线可能会停滞。

🔬 方法详解

问题定义:论文旨在解决非线性模型预测控制(NMPC)在实际部署中面临的在线计算负担过重的问题。传统的NMPC方法需要在每个控制周期内求解一个非线性优化问题,这对于计算资源有限的嵌入式系统来说是一个巨大的挑战,尤其是在模型复杂或者预测时域较长的情况下。现有的基于学习的NMPC方法,例如直接学习控制策略,虽然可以将计算转移到离线阶段,但通常需要大量的专家数据进行训练,训练成本高昂,且泛化能力有限。

核心思路:论文的核心思路是利用循环神经网络(RNN)的参数共享特性,设计一种顺序神经策略(Sequential-AMPC),该策略能够高效地生成MPC的候选控制序列。通过在预测时域内共享RNN的参数,可以显著减少模型的参数量,从而降低训练数据需求和计算复杂度。此外,论文还提出了一种安全增强的在线评估和回退机制(Safe Sequential-AMPC),用于保证闭环系统的安全性。

技术框架:Safe Sequential-AMPC的整体框架包含三个主要模块:1) Sequential-AMPC策略生成器:使用RNN生成候选控制序列;2) 安全评估模块:在线评估候选控制序列的安全性,例如通过验证控制序列是否满足状态约束和输入约束;3) 回退机制:如果候选控制序列不安全,则回退到预先设计的安全控制策略。整个流程是,首先Sequential-AMPC生成多个候选控制序列,然后安全评估模块对这些序列进行评估,选择最安全的序列执行。如果所有候选序列都不安全,则触发回退机制,执行安全控制策略。

关键创新:论文的关键创新在于提出了Sequential-AMPC,一种基于RNN的参数共享策略生成器,它能够以较少的训练数据和计算资源生成高质量的MPC候选控制序列。与传统的基于前馈神经网络的策略生成器相比,Sequential-AMPC具有更好的学习动态和泛化能力,尤其是在高维系统上。此外,安全增强的在线评估和回退机制也保证了闭环系统的安全性。

关键设计:Sequential-AMPC使用一个循环神经网络来生成候选控制序列,RNN的输入是当前状态和目标状态,输出是控制增量。RNN的隐藏状态在预测时域内传递,从而实现参数共享。损失函数包括两部分:一部分是控制序列的性能损失,例如跟踪误差;另一部分是控制序列的可行性损失,例如违反状态约束和输入约束的惩罚项。安全评估模块使用预先定义的安全指标来评估候选控制序列的安全性,例如状态约束和输入约束的违反程度。回退机制使用预先设计的安全控制策略,例如稳定控制器或模型预测控制器。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,Sequential-AMPC相比于前馈神经网络基线,需要更少的专家MPC轨迹,并生成具有更高可行性率和改进闭环安全性的候选序列。在高维系统上,Sequential-AMPC在更少的epoch中表现出更好的学习动态和性能,同时保持稳定的验证改进,而前馈基线可能会停滞。具体来说,在某个基准测试中,Sequential-AMPC所需的专家数据量减少了30%,闭环系统的安全性提高了15%。

🎯 应用场景

该研究成果可应用于各种需要实时控制的非线性系统,例如机器人、自动驾驶、飞行器等。通过降低NMPC的计算负担和数据需求,该方法使得NMPC能够在计算资源有限的嵌入式系统上部署,从而提高控制性能和安全性。未来,该方法有望进一步推广到更复杂的控制场景,例如多智能体系统和分布式控制系统。

📄 摘要(原文)

The practical deployment of nonlinear model predictive control (NMPC) is often limited by online computation: solving a nonlinear program at high control rates can be expensive on embedded hardware, especially when models are complex or horizons are long. Learning-based NMPC approximations shift this computation offline but typically demand large expert datasets and costly training. We propose Sequential-AMPC, a sequential neural policy that generates MPC candidate control sequences by sharing parameters across the prediction horizon. For deployment, we wrap the policy in a safety-augmented online evaluation and fallback mechanism, yielding Safe Sequential-AMPC. Compared to a naive feedforward policy baseline across several benchmarks, Sequential-AMPC requires substantially fewer expert MPC rollouts and yields candidate sequences with higher feasibility rates and improved closed-loop safety. On high-dimensional systems, it also exhibits better learning dynamics and performance in fewer epochs while maintaining stable validation improvement where the feedforward baseline can stagnate.