Model-free LQG Control with Chance Constraints
作者: Arunava Naha, Subhrakanti Dey
分类: eess.SY
发布日期: 2026-05-29
备注: Under review at IEEE OPEN JOURNAL OF CONTROL SYSTEMS
💡 一句话要点
提出基于NPG的Actor-Critic算法,解决机会约束下LQG控制的无模型优化问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 无模型控制 机会约束 LQG控制 Actor-Critic算法 自然策略梯度 拉格朗日对偶 强化学习
📋 核心要点
- 传统机会约束LQG控制依赖精确模型,实际应用受限,无模型方法是挑战。
- 提出基于NPG的Actor-Critic算法,利用拉格朗日对偶框架处理机会约束。
- 实验表明,该方法在无模型情况下有效限制风险,性能接近最优,优于传统方法。
📝 摘要(中文)
本文研究了线性时不变系统在概率风险或机会约束下的无模型最优控制设计及其收敛性。具体而言,我们研究了一种基于自然策略梯度(NPG)的Actor-Critic(AC)算法,该算法采用双时间尺度,并使用拉格朗日原始-对偶框架来实施约束。此外,风险被定义为单步超前状态的函数超过用户指定阈值的概率。据我们所知,这是第一项研究在机会约束线性二次高斯(LQG)调节器设置中,针对基于NPG的AC算法的解析收敛性,且无需模型知识的工作。我们建立了拉格朗日函数的强制性和梯度支配性质,这确保了Actor在训练期间的线性收敛性和闭环稳定性。另一方面,我们应用随机逼近理论分析了Critic的时间差分(TD(0))学习的收敛性。此外,我们证明了约束优化问题中不存在对偶间隙。此外,我们对所提出方法的收敛性和准确性进行了数值分析,并将其与基于模型的机会约束LQR和基于场景的MPC进行了比较。结果表明,我们的方法在不需要完整模型知识或实时优化的情况下,有效地限制了风险,同时保持了接近最优的性能。
🔬 方法详解
问题定义:论文旨在解决线性时不变系统在满足机会约束条件下的最优控制问题,即系统状态超过预设风险阈值的概率需要被限制。传统方法通常需要精确的系统模型,这在实际应用中往往难以获得。因此,如何在无模型的情况下实现机会约束下的LQG控制是一个关键挑战。
核心思路:论文的核心思路是利用Actor-Critic算法进行无模型控制,并采用拉格朗日对偶方法将机会约束纳入优化目标中。Actor负责策略的更新,Critic负责评估策略的价值函数。通过拉格朗日乘子将机会约束转化为对Actor的惩罚项,从而在策略优化过程中考虑风险约束。
技术框架:整体框架是一个双时间尺度的Actor-Critic算法。Actor使用自然策略梯度(NPG)进行策略更新,Critic使用时间差分学习(TD(0))估计价值函数。拉格朗日乘子也通过梯度下降进行更新,以满足机会约束。整个流程包括:1) Actor根据当前策略生成控制动作;2) 系统根据控制动作产生新的状态;3) Critic评估当前状态的价值;4) Actor根据Critic的评估结果和拉格朗日乘子更新策略;5) 拉格朗日乘子根据机会约束的违反程度进行更新。
关键创新:该论文的关键创新在于首次将基于NPG的Actor-Critic算法应用于机会约束下的LQG控制,并提供了严格的理论分析。具体来说,论文证明了拉格朗日函数的强制性和梯度支配性质,保证了Actor的线性收敛性和闭环稳定性。同时,论文还分析了Critic的TD(0)学习的收敛性,并证明了约束优化问题中不存在对偶间隙。
关键设计:论文采用双时间尺度更新策略,Actor的更新频率低于Critic和拉格朗日乘子的更新频率。损失函数包括LQG控制的成本函数和机会约束的惩罚项,惩罚项由拉格朗日乘子控制。Actor的网络结构和Critic的网络结构需要根据具体问题进行设计,但通常采用线性或非线性函数逼近器。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的基于NPG的Actor-Critic算法在机会约束LQG控制问题上表现出色。与基于模型的机会约束LQR和基于场景的MPC相比,该方法在不需要完整模型知识的情况下,能够有效地限制风险,同时保持接近最优的性能。数值结果验证了算法的收敛性和准确性。
🎯 应用场景
该研究成果可应用于各种需要考虑风险约束的控制场景,例如自动驾驶、机器人导航、金融风险管理等。在这些场景中,系统需要在保证性能的同时,避免出现超过安全阈值的风险事件。该方法无需精确模型,具有很强的实用性和推广价值,未来可进一步扩展到非线性系统和更复杂的约束条件。
📄 摘要(原文)
This paper studies model-free optimal control design and its convergence properties for linear time-invariant systems subject to probabilistic risk or chance constraints. In particular, we study a natural policy gradient (NPG)-based actor-critic (AC) algorithm with two timescales, using a Lagrangian primal-dual framework to enforce the constraint. Furthermore, the risk is defined as the probability that a function of the one-step-ahead state exceeds a user-specified threshold. To our knowledge, this is the first work to study the analytical convergence properties for NPG-based AC in a chance-constrained linear-quadratic Gaussian (LQG) regulator setting without model knowledge. We establish the coercivity and gradient dominance properties of the Lagrangian function, which ensure linear convergence and closed-loop stability during training for the actor. On the other hand, we analyse the convergence properties of the temporal difference (TD(0)) learning for the critic, applying stochastic approximation theory. Also, we demonstrate no duality gap in the constrained optimisation problem. Additionally, we have performed numerical analysis of the convergence properties and accuracy of the proposed method, comparing it with model-based chance-constrained LQR and scenario-based MPC. Results show that our approach effectively limits risk while maintaining near-optimal performance, without requiring full model knowledge or real-time optimisation.