Neural Co-state Projection Regulator: A Model-free Paradigm for Real-time Optimal Control with Input Constraints

📄 arXiv: 2508.00283v1 📥 PDF

作者: Lihan Lian, Uduak Inyang-Udoh

分类: eess.SY

发布日期: 2025-08-01


💡 一句话要点

提出神经余状态投影调节器(NCPR),解决输入约束下非线性系统实时最优控制问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 最优控制 无模型学习 庞特里亚金最小值原理 神经余状态投影 二次规划 输入约束 实时控制

📋 核心要点

  1. 强化学习等方法在最优控制中面临采样效率低、对奖励函数敏感、泛化性差等问题,尤其是在存在输入约束时。
  2. NCPR基于庞特里亚金最小值原理,通过神经网络预测投影余状态,并结合二次规划,实现满足约束的实时最优控制。
  3. 实验表明,NCPR在单轮车跟踪和倒立摆摆起任务中,泛化性和采样效率优于强化学习,且无需系统模型。

📝 摘要(中文)

本文提出了一种基于学习的无模型最优控制框架——神经余状态投影调节器(NCPR),用于解决具有输入约束的非线性控制仿射系统的二次调节器问题。该方法基于庞特里亚金最小值原理(PMP),通过自监督学习训练一个神经网络(NN),以系统当前状态作为输入,预测投影余状态的有限时域轨迹(即,余状态乘以系统的输入增益)。然后,提取NN预测的第一个元素来解决一个轻量级的二次规划(QP)问题。该流程在反馈控制环境中执行,从而能够实时计算满足输入约束和一阶最优性条件的控制动作。在单轮车模型机器人参考跟踪问题和倒立摆摆起任务中测试了所提出的基于学习的无模型二次调节器。与强化学习相比,该方法在未见过的系统状态和变化的输入约束方面表现出卓越的泛化能力,并提高了采样效率。

🔬 方法详解

问题定义:论文旨在解决非线性控制仿射系统在输入约束下的实时最优控制问题。现有基于强化学习的方法存在采样效率低、对超参数和奖励函数设计敏感、泛化能力差等问题,难以满足实际应用需求。

核心思路:论文的核心思路是利用庞特里亚金最小值原理(PMP)将最优控制问题转化为预测余状态的问题,并使用神经网络学习余状态的投影。通过预测余状态,可以避免直接学习控制策略,从而提高采样效率和泛化能力。同时,结合二次规划(QP)来显式地处理输入约束,保证控制动作的可行性。

技术框架:NCPR的整体框架包括以下几个主要阶段:1) 数据生成:通过随机探索或使用次优控制器生成系统状态转移数据。2) 神经网络训练:使用自监督学习训练一个神经网络,该网络以当前系统状态作为输入,预测有限时域的投影余状态轨迹。3) 控制动作计算:在每个控制周期,将当前系统状态输入训练好的神经网络,提取预测的第一个投影余状态,并将其用于求解一个轻量级的二次规划问题,得到满足输入约束的控制动作。4) 反馈控制:将计算得到的控制动作作用于系统,并重复上述过程。

关键创新:NCPR的关键创新在于:1) 基于PMP的余状态预测:将最优控制问题转化为余状态预测问题,降低了学习难度,提高了采样效率。2) 投影余状态:预测投影余状态而非直接预测余状态,简化了计算,并提高了鲁棒性。3) 自监督学习:使用自监督学习训练神经网络,避免了对奖励函数的依赖,降低了调参难度。

关键设计:1) 神经网络结构:论文中使用的神经网络结构可以是任意的,例如多层感知机(MLP)或循环神经网络(RNN)。2) 损失函数:损失函数通常采用均方误差(MSE),用于衡量预测的投影余状态与真实投影余状态之间的差异。3) 二次规划问题:二次规划问题的目标函数通常是控制输入的二次函数,约束条件是输入约束。4) 训练数据:训练数据需要覆盖系统状态空间,并包含足够多的状态转移信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在单轮车模型机器人参考跟踪问题和倒立摆摆起任务中,NCPR表现出优于强化学习的泛化能力和采样效率。具体而言,NCPR在未见过的系统状态和变化的输入约束下仍能保持良好的控制性能,并且在更少的训练样本下即可达到与强化学习相当甚至更好的效果。在单轮车跟踪任务中,NCPR的性能接近于模型预测控制(MPC)。

🎯 应用场景

NCPR可应用于各种需要实时最优控制的场景,例如机器人运动规划、无人机姿态控制、自动驾驶车辆轨迹跟踪、以及其他受约束的非线性系统的控制。该方法无需系统模型,降低了应用门槛,具有广泛的应用前景。

📄 摘要(原文)

Learning-based approaches, notably Reinforcement Learning (RL), have shown promise for solving optimal control tasks without explicit system models. However, these approaches are often sample-inefficient, sensitive to reward design and hyperparameters, and prone to poor generalization, especially under input constraints. To address these challenges, we introduce the neural co-state projection regulator (NCPR), a model-free learning-based optimal control framework that is grounded in Pontryagin's Minimum Principle (PMP) and capable of solving quadratic regulator problems in nonlinear control-affine systems with input constraints. In this framework, a neural network (NN) is trained in a self-supervised setting to take the current state of the system as input and predict a finite-horizon trajectory of projected co-states (i.e., the co-state weighted by the system's input gain). Subsequently, only the first element of the NN's prediction is extracted to solve a lightweight quadratic program (QP). This workflow is executed in a feedback control setting, allowing real-time computation of control actions that satisfy both input constraints and first-order optimality conditions. We test the proposed learning-based model-free quadratic regulator on (1) a unicycle model robot reference tracking problem and (2) a pendulum swing-up task. For comparison, reinforcement learning is used on both tasks; and for context, a model-based controller is used in the unicycle model example. Our method demonstrates superior generalizability in terms of both unseen system states and varying input constraints, and also shows improved sampling efficiency.