Goal-oriented safe active learning for predictive control using Bayesian recurrent neural networks

作者: Laura Boca de Giuli, Alessio La Bella, Manish Prajapat, Johannes Köhler, Anna Scampicchio, Riccardo Scattolini, Melanie Zeilinger

分类: eess.SY

发布日期: 2026-04-14

💡 一句话要点

提出基于贝叶斯循环神经网络和目标导向安全主动学习的预测控制方法

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 模型预测控制 主动学习 贝叶斯学习 循环神经网络 安全控制

📋 核心要点

基于学习的MPC面临的关键挑战是在保证安全和不降低控制性能的前提下，在线收集信息丰富的数据用于模型自适应。
论文提出一种目标导向的安全主动学习算法，交替进行探索和目标达成阶段，利用贝叶斯学习递归更新循环神经网络的参数。
仿真结果表明，该框架在能源系统中实现了与具有完整系统知识的MPC相当的经济性能，并逐步提高了模型精度。

📝 摘要（中文）

本文提出了一种在线模型自适应方案，该方案嵌入在模型预测控制（MPC）框架中，其中循环神经网络的最后一层参数通过贝叶斯学习递归更新。这是通过一种目标导向的安全主动学习算法实现的，该算法在探索阶段（MPC主动探索系统动态，收集信息数据以进行模型自适应，同时追求主要的控制目标）和目标达成阶段（完全专注于主要的控制目标）之间交替进行。该算法辅以（i）递归可行性，（ii）安全性，（iii）在有限时间内终止探索以及（iv）接近最优性能的理论保证。在基准能源系统上的仿真结果表明，所提出的框架实现了与具有完整系统知识的MPC相当的经济性能，同时逐步提高了模型精度并以高概率遵守了运行安全约束。

🔬 方法详解

问题定义：基于学习的模型预测控制（MPC）需要在运行时不断适应环境变化，但如何在保证安全的前提下，高效地收集信息量大的数据用于模型更新是一个难题。传统的MPC方法依赖于精确的模型，而学习型MPC则需要解决探索-利用的平衡问题，即如何在探索未知系统动态的同时，保证控制性能和安全性。

核心思路：论文的核心思路是设计一种目标导向的安全主动学习算法，该算法嵌入在MPC框架中，通过贝叶斯学习在线更新循环神经网络的参数。该算法交替执行探索阶段和目标达成阶段，探索阶段主动探索系统动态以收集信息数据，目标达成阶段则专注于实现控制目标。这种交替策略旨在平衡探索和利用，同时保证安全性。

技术框架：整体框架包含以下几个主要模块：1) 基于循环神经网络（RNN）的系统动力学模型，用于预测系统状态；2) 基于贝叶斯学习的参数更新模块，用于在线更新RNN的最后一层参数；3) 模型预测控制（MPC）模块，用于计算最优控制输入；4) 目标导向的安全主动学习算法，用于决定何时进行探索以及如何进行探索。该算法在探索阶段，MPC会主动选择能够提供最多信息的控制输入，而在目标达成阶段，MPC则专注于实现控制目标。

关键创新：该论文的关键创新在于提出了一种目标导向的安全主动学习算法，该算法能够有效地平衡探索和利用，同时保证安全性。与传统的被动学习方法相比，该算法能够更有效地收集信息量大的数据，从而提高模型的精度。此外，该算法还提供了递归可行性、安全性、有限时间终止探索以及接近最优性能的理论保证。

关键设计：论文使用循环神经网络（RNN）作为系统动力学模型，并使用贝叶斯学习方法在线更新RNN的最后一层参数。MPC的目标函数包括控制性能和安全约束，安全约束通过引入障碍函数来实现。目标导向的安全主动学习算法通过最大化信息增益来选择探索性的控制输入，同时保证安全性。具体而言，探索阶段的目标函数包括信息增益项和安全约束项，信息增益项用于鼓励探索，安全约束项用于保证安全性。

🖼️ 关键图片

📊 实验亮点

在基准能源系统上的仿真结果表明，所提出的框架实现了与具有完整系统知识的MPC相当的经济性能，同时逐步提高了模型精度并以高概率遵守了运行安全约束。这表明该方法能够在保证安全的前提下，有效地进行模型自适应，并提高控制性能。

🎯 应用场景

该研究成果可应用于各种需要在线模型自适应和安全控制的领域，例如能源系统、机器人控制、自动驾驶等。通过该方法，系统可以在运行时不断学习和适应环境变化，提高控制性能和安全性，降低对系统先验知识的依赖。

📄 摘要（原文）

A key challenge in learning-based model predictive control (MPC) is to collect informative data online for model adaptation while ensuring safety and without penalising control performance. In this paper, we propose an online model adaptation scheme embedded within an MPC framework in which the last-layer parameters of a recurrent neural network are recursively updated via Bayesian learning. This is achieved by means of a goal-oriented safe active learning algorithm that alternates between an exploration phase, where the MPC actively explores system dynamics to collect informative data for model adaptation while still pursuing the main control objective, and a goal-reaching phase, where it focuses exclusively on the main control objective. The algorithm is complemented with theoretical guarantees of (i) recursive feasibility, (ii) safety, (iii) termination of exploration in finite time, and (iv) close-to-optimal performance. Simulation results on a benchmark energy system demonstrate that the proposed framework achieves economic performance comparable to that of an MPC with full system knowledge, while progressively improving model accuracy and respecting operational safety constraints with high probability.

Goal-oriented safe active learning for predictive control using Bayesian recurrent neural networks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理