Safe and Stable Closed-Loop Learning for Neural-Network-Supported Model Predictive Control
作者: Sebastian Hirt, Maik Pfefferkorn, Rolf Findeisen
分类: eess.SY, cs.LG
发布日期: 2024-09-16
备注: 7 pages, 2 figures, accepted for CDC 2024
💡 一句话要点
提出基于贝叶斯优化的神经网络MPC安全学习方法,保障闭环稳定性和性能。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 模型预测控制 神经网络 贝叶斯优化 安全学习 闭环稳定性 参数化控制器 最优控制
📋 核心要点
- 传统最优控制和强化学习在控制策略的安全学习方面面临挑战,尤其是在信息不完备的情况下。
- 该论文提出一种基于贝叶斯优化的方法,用于学习参数化预测控制器的最优参数,同时保证闭环系统的安全性和稳定性。
- 通过数值实验验证了该方法的有效性,展示了其在保证安全性的前提下提升闭环性能的能力。
📝 摘要(中文)
本文研究了参数化预测控制器的安全学习问题,该控制器在关于底层过程的信息不完整的情况下运行。为此,我们采用贝叶斯优化从闭环数据中学习最佳参数。我们的方法侧重于系统在闭环中的整体长期性能,同时保持其安全性和稳定性。具体而言,我们使用前馈神经网络参数化MPC的阶段成本函数。这允许高度的灵活性,使系统能够相对于上级度量实现更好的闭环性能。然而,这种灵活性也需要安全措施,尤其是在闭环稳定性方面。为此,我们将稳定性信息明确地纳入基于贝叶斯优化的学习过程中,从而实现严格的概率安全保证。通过数值例子说明了所提出的方法。
🔬 方法详解
问题定义:现有的模型预测控制(MPC)方法在面对复杂系统时,通常需要精确的系统模型。然而,在实际应用中,系统模型往往是不完整的或未知的。直接使用神经网络进行控制可能导致不稳定或不安全的结果。因此,如何在不完全信息下安全地学习控制策略,同时保证闭环系统的稳定性和性能,是一个关键问题。
核心思路:该论文的核心思路是将神经网络与模型预测控制相结合,利用神经网络的灵活性来学习更优的阶段成本函数,从而提升闭环性能。同时,采用贝叶斯优化方法,将稳定性信息显式地纳入学习过程中,以确保学习到的控制策略满足安全约束,保证闭环系统的稳定性。
技术框架:整体框架包括以下几个主要模块:1) 使用前馈神经网络参数化MPC的阶段成本函数;2) 使用贝叶斯优化算法搜索最优的网络参数;3) 在贝叶斯优化过程中,显式地考虑稳定性约束,例如通过引入概率安全保证;4) 通过闭环数据进行学习和优化,不断提升控制性能。
关键创新:该论文的关键创新在于将贝叶斯优化与神经网络MPC相结合,并显式地考虑了稳定性约束。传统的神经网络控制方法往往缺乏对系统稳定性的保证,而该方法通过将稳定性信息融入贝叶斯优化过程中,实现了对闭环系统安全性的严格概率保证。
关键设计:关键设计包括:1) 神经网络的结构选择,例如层数和神经元数量;2) 贝叶斯优化算法的选择和参数设置,例如核函数和采集函数;3) 稳定性约束的定义和实现,例如基于李雅普诺夫理论或鲁棒控制理论;4) 损失函数的设计,需要平衡性能提升和稳定性保证。
🖼️ 关键图片
📊 实验亮点
论文通过数值实验验证了所提出方法的有效性。实验结果表明,该方法能够在保证闭环系统稳定性的前提下,有效地提升控制性能。具体的性能提升幅度和对比基线需要在论文中查找更详细的数据。该方法能够学习到满足安全约束的控制策略,避免了传统神经网络控制方法可能导致的不稳定或不安全行为。
🎯 应用场景
该研究成果可应用于各种需要安全可靠控制的领域,例如机器人控制、自动驾驶、过程控制等。特别是在系统模型不确定或存在扰动的情况下,该方法能够学习到鲁棒的控制策略,保证系统的安全稳定运行。未来,该方法可以进一步扩展到更复杂的系统和任务中,例如多智能体系统和强化学习。
📄 摘要(原文)
Safe learning of control policies remains challenging, both in optimal control and reinforcement learning. In this article, we consider safe learning of parametrized predictive controllers that operate with incomplete information about the underlying process. To this end, we employ Bayesian optimization for learning the best parameters from closed-loop data. Our method focuses on the system's overall long-term performance in closed-loop while keeping it safe and stable. Specifically, we parametrize the stage cost function of an MPC using a feedforward neural network. This allows for a high degree of flexibility, enabling the system to achieve a better closed-loop performance with respect to a superordinate measure. However, this flexibility also necessitates safety measures, especially with respect to closed-loop stability. To this end, we explicitly incorporated stability information in the Bayesian-optimization-based learning procedure, thereby achieving rigorous probabilistic safety guarantees. The proposed approach is illustrated using a numeric example.