Neural Co-state Regulator: A Data-Driven Paradigm for Real-time Optimal Control with Input Constraints
作者: Lihan Lian, Yuxin Tong, Uduak Inyang-Udoh
分类: eess.SY
发布日期: 2025-07-16
💡 一句话要点
提出神经协同状态调节器(NCR),用于解决带输入约束的非线性最优控制问题。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 最优控制 神经网络 无监督学习 模型预测控制 实时控制 协同状态 二次规划
📋 核心要点
- 现有非线性最优控制方法(如MPC)计算成本高昂,难以满足实时性要求,且依赖次优的专家求解器。
- 论文提出神经协同状态调节器(NCR),通过神经网络学习预测最优协同状态轨迹,并结合二次规划求解器提取控制输入。
- 实验表明,NCR在收敛误差和输入轨迹平滑度方面优于非线性MPC,且计算时间减少两个数量级。
📝 摘要(中文)
本文提出了一种新颖的无监督学习框架,用于实时解决具有输入约束的非线性最优控制问题(OCP)。在该框架中,一个神经网络(NN)学习预测最优协同状态轨迹,该轨迹在给定系统的任何状态下,基于庞特里亚金最小值原理(PMP)最小化控制哈密顿量。具体而言,该神经网络经过训练,可以找到同时满足非线性系统动力学并最小化二次调节成本的范数最优协同状态解。然后,通过求解二次规划(QP)从预测的最优协同状态轨迹中提取控制输入,以满足输入约束和最优性条件。我们将协同状态神经网络和控制输入QP求解器的组合称为神经协同状态调节器(NCR)。为了证明NCR的有效性,我们将其反馈控制性能与单轮车模型上的专家非线性模型预测控制(MPC)求解器进行了比较。由于NCR的训练不依赖于通常次优的专家非线性控制求解器,因此NCR能够产生在收敛误差和输入轨迹平滑度方面优于非线性MPC求解器的解决方案,即使对于超出其原始训练域的系统条件也是如此。同时,NCR提供的计算时间比非线性MPC少两个数量级。
🔬 方法详解
问题定义:论文旨在解决具有输入约束的非线性最优控制问题,目标是找到一个能够实时生成最优控制输入的策略。传统方法,如非线性模型预测控制(MPC),虽然能够处理非线性系统和约束,但计算复杂度高,难以满足实时性要求。此外,MPC通常依赖于专家求解器,这些求解器可能找到的是次优解,限制了控制性能的进一步提升。
核心思路:论文的核心思路是利用神经网络学习最优协同状态轨迹,从而绕过耗时的在线优化过程。基于庞特里亚金最小值原理(PMP),最优控制问题可以转化为寻找满足系统动力学和最小化哈密顿量的协同状态轨迹。通过训练神经网络来预测最优协同状态,可以将复杂的优化问题转化为简单的函数逼近问题,从而实现实时控制。
技术框架:NCR的整体框架包含两个主要模块:协同状态神经网络(Co-state NN)和控制输入二次规划求解器(Control Input QP Solver)。首先,Co-state NN接收系统状态作为输入,输出预测的最优协同状态轨迹。然后,Control Input QP Solver利用预测的协同状态轨迹,通过求解一个二次规划问题,提取满足输入约束和最优性条件的控制输入。整个过程无需在线优化,从而大大降低了计算复杂度。
关键创新:NCR的关键创新在于利用神经网络直接学习最优协同状态,而不是直接学习控制策略。这种方法有几个优点:首先,协同状态包含了系统最优控制的必要信息,学习协同状态可以更好地捕捉最优控制的本质;其次,通过结合二次规划求解器,可以显式地处理输入约束,保证控制输入的安全性;最后,由于神经网络的训练是离线的,因此可以利用大量数据来提高控制性能,而无需担心在线计算的负担。
关键设计:Co-state NN的网络结构未知,但其损失函数的设计至关重要。损失函数需要同时考虑系统动力学的约束和哈密顿量的最小化。具体而言,损失函数可能包含两部分:一部分衡量预测的协同状态是否满足系统动力学方程,另一部分衡量预测的协同状态是否能够最小化哈密顿量。Control Input QP Solver的目标函数是最小化控制输入的能量,约束条件包括输入约束和基于协同状态的最优性条件。具体的参数设置和网络结构需要在实际应用中进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,NCR在单轮车模型上的控制性能优于非线性MPC。具体而言,NCR在收敛误差方面表现更好,能够更快地将系统状态稳定到目标值。此外,NCR生成的控制输入轨迹更加平滑,减少了执行器的磨损。更重要的是,NCR的计算时间比非线性MPC减少了两个数量级,使其能够满足实时控制的要求。即使在超出训练范围的系统条件下,NCR仍然能够保持良好的控制性能。
🎯 应用场景
NCR具有广泛的应用前景,例如机器人控制、自动驾驶、航空航天等领域。在这些领域中,系统通常具有非线性动力学和输入约束,需要实时生成最优控制策略。NCR能够以较低的计算成本实现高性能的控制,有望推动这些领域的发展。此外,NCR的无监督学习框架也为其他控制问题的解决提供了新的思路。
📄 摘要(原文)
We propose a novel unsupervised learning framework for solving nonlinear optimal control problems (OCPs) with input constraints in real-time. In this framework, a neural network (NN) learns to predict the optimal co-state trajectory that minimizes the control Hamiltonian for a given system, at any system's state, based on the Pontryagin's Minimum Principle (PMP). Specifically, the NN is trained to find the norm-optimal co-state solution that simultaneously satisfies the nonlinear system dynamics and minimizes a quadratic regulation cost. The control input is then extracted from the predicted optimal co-state trajectory by solving a quadratic program (QP) to satisfy input constraints and optimality conditions. We coin the term neural co-state regulator (NCR) to describe the combination of the co-state NN and control input QP solver. To demonstrate the effectiveness of the NCR, we compare its feedback control performance with that of an expert nonlinear model predictive control (MPC) solver on a unicycle model. Because the NCR's training does not rely on expert nonlinear control solvers which are often suboptimal, the NCR is able to produce solutions that outperform the nonlinear MPC solver in terms of convergence error and input trajectory smoothness even for system conditions that are outside its original training domain. At the same time, the NCR offers two orders of magnitude less computational time than the nonlinear MPC.