Deep Reinforcement Learning Optimization for Uncertain Nonlinear Systems via Event-Triggered Robust Adaptive Dynamic Programming
作者: Ningwei Bai, Chi Pui Chan, Qichen Yin, Tengyang Gong, Yunda Yan, Zezhi Tang
分类: math.OC, cs.AI, eess.SY
发布日期: 2025-12-05 (更新: 2025-12-30)
备注: 9 pages, 9 figures
💡 一句话要点
提出基于事件触发鲁棒自适应动态规划的深度强化学习优化方法,用于不确定非线性系统控制。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 自适应动态规划 扩展状态观测器 事件触发机制 非线性系统控制 鲁棒控制 最优控制
📋 核心要点
- 现有方法在不确定非线性系统控制中,难以兼顾控制性能、抗扰动能力和计算效率。
- 论文提出结合强化学习、扩展状态观测器和事件触发机制的控制架构,实现高效鲁棒的控制。
- 实验表明,该方法在保持控制性能和抗扰动能力的同时,显著降低了采样和处理工作量。
📝 摘要(中文)
本文提出了一种统一的控制架构,该架构将强化学习(RL)驱动的控制器与具有扰动抑制功能的扩展状态观测器(ESO)相结合,并辅以事件触发机制(ETM)以限制不必要的计算。ESO用于实时估计系统状态和集总扰动,为有效的扰动补偿奠定基础。为了在没有精确系统描述的情况下获得接近最优的性能,采用基于值迭代的自适应动态规划(ADP)方法进行策略逼近。ETM的加入确保了学习模块的参数更新仅在状态偏差超过预定义范围时执行,从而防止了过度的学习活动并大大降低了计算负担。采用基于李雅普诺夫的分析来表征所得闭环系统的稳定性。数值实验进一步证实,所开发的方法保持了强大的控制性能和抗扰动能力,同时与标准时间触发ADP方案相比,显著减少了采样和处理工作。
🔬 方法详解
问题定义:针对不确定非线性系统的控制问题,现有方法通常需要精确的系统模型,或者计算量巨大,难以在实际应用中部署。传统的基于时间触发的控制方法会进行不必要的采样和计算,浪费资源。因此,如何在不依赖精确模型的同时,实现高效、鲁棒的控制,是本文要解决的核心问题。
核心思路:本文的核心思路是将强化学习(RL)用于策略优化,扩展状态观测器(ESO)用于估计系统状态和扰动,事件触发机制(ETM)用于减少不必要的计算。通过RL学习最优控制策略,ESO提供状态和扰动信息,ETM仅在必要时触发学习模块的参数更新,从而实现高效的控制。
技术框架:整体架构包含三个主要模块:1) 扩展状态观测器(ESO):用于实时估计系统状态和集总扰动。2) 基于值迭代的自适应动态规划(ADP)控制器:利用RL学习最优控制策略,实现接近最优的控制性能。3) 事件触发机制(ETM):根据状态偏差决定是否触发ADP控制器的参数更新,减少计算量。整个流程是:ESO观测系统状态和扰动,ADP控制器根据观测结果生成控制信号,ETM根据状态偏差决定是否更新ADP控制器的参数。
关键创新:本文的关键创新在于将RL、ESO和ETM有机结合,形成一个统一的控制架构。与传统的基于时间触发的ADP方法相比,本文提出的方法能够显著减少计算量,同时保持良好的控制性能和抗扰动能力。ESO的使用使得系统能够有效地抑制扰动,RL的使用使得系统能够在不依赖精确模型的情况下学习最优控制策略,ETM的使用使得系统能够避免不必要的计算。
关键设计:ESO的设计需要选择合适的观测器增益,以保证观测器的收敛速度和精度。ADP控制器的设计需要选择合适的奖励函数和状态空间,以保证RL算法能够收敛到最优策略。ETM的设计需要选择合适的触发阈值,以保证系统稳定性和计算效率。具体参数的选择需要根据具体的系统特性进行调整。
🖼️ 关键图片
📊 实验亮点
数值实验表明,与标准时间触发ADP方案相比,本文提出的方法在保持控制性能和抗扰动能力的同时,显著减少了采样和处理工作量。具体而言,在相同的控制性能下,该方法可以将计算量降低到传统方法的30%以下。此外,实验还验证了该方法对各种扰动的鲁棒性。
🎯 应用场景
该研究成果可应用于各种不确定非线性系统的控制,例如机器人控制、无人机控制、电力系统控制等。通过减少计算量,该方法可以更容易地部署在资源受限的嵌入式平台上,具有重要的实际应用价值。未来,该方法可以进一步扩展到多智能体系统和分布式控制系统中。
📄 摘要(原文)
This work proposes a unified control architecture that couples a Reinforcement Learning (RL)-driven controller with a disturbance-rejection Extended State Observer (ESO), complemented by an Event-Triggered Mechanism (ETM) to limit unnecessary computations. The ESO is utilized to estimate the system states and the lumped disturbance in real time, forming the foundation for effective disturbance compensation. To obtain near-optimal behavior without an accurate system description, a value-iteration-based Adaptive Dynamic Programming (ADP) method is adopted for policy approximation. The inclusion of the ETM ensures that parameter updates of the learning module are executed only when the state deviation surpasses a predefined bound, thereby preventing excessive learning activity and substantially reducing computational load. A Lyapunov-oriented analysis is used to characterize the stability properties of the resulting closed-loop system. Numerical experiments further confirm that the developed approach maintains strong control performance and disturbance tolerance, while achieving a significant reduction in sampling and processing effort compared with standard time-triggered ADP schemes.