Safe model-based Reinforcement Learning via Model Predictive Control and Control Barrier Functions
作者: Kerim Dzhumageldyev, Filippo Airaldi, Azita Dabiri
分类: eess.SY
发布日期: 2025-12-04
备注: Submitted to IFAC WC 2026, 7 pages, 3 figures
💡 一句话要点
提出安全模型基础强化学习框架以解决控制安全性问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 模型预测控制 控制屏障函数 强化学习 安全控制 自适应控制 动态环境 数值实验
📋 核心要点
- 现有的模型预测控制(MPC)与控制屏障函数(CBF)结合的策略在参数调优和类$ ext{K}$函数选择上存在挑战,影响了其广泛应用。
- 本文提出了一种安全的模型基础强化学习框架,通过参数化的MPC控制器与CBF约束结合,利用数据学习安全控制策略。
- 数值实验在离散双积分器上进行,结果显示所提方法在确保安全的同时显著提升了控制性能。
📝 摘要(中文)
在安全关键系统中,最优控制策略常与安全证书结合,以确保性能和安全性。本文提出了一种安全的模型基础强化学习框架,该框架通过参数化的模型预测控制器(MPC)结合控制屏障函数(CBF)约束,作为函数逼近器从数据中学习改进的安全控制策略。框架的三种变体通过优化问题的不同形式和参数化的类$ ext{K}$函数进行区分,包括神经网络架构。数值实验表明,所提出的方法在确保安全的同时提高了性能。
🔬 方法详解
问题定义:本文旨在解决在安全关键系统中,如何有效结合模型预测控制(MPC)与控制屏障函数(CBF)以确保安全性和性能的问题。现有方法在参数调优和类$ ext{K}$函数选择上存在困难,导致其在实际应用中的局限性。
核心思路:论文提出的框架通过将参数化的MPC控制器与CBF约束结合,利用强化学习从数据中学习安全控制策略。这种设计使得控制器能够在动态环境中适应并优化安全性。
技术框架:整体架构包括三个主要模块:参数化的MPC控制器、CBF约束和强化学习策略。MPC控制器负责生成控制输入,CBF约束确保系统在运行过程中的安全性,而强化学习则用于从历史数据中学习改进的控制策略。
关键创新:本文的主要创新在于将MPC与CBF结合,并通过强化学习实现自适应控制策略的学习。这一方法与传统的MPC和CBF结合方式不同,提供了更高的灵活性和适应性。
关键设计:在设计中,类$ ext{K}$函数的参数化方式是关键,论文探讨了不同的参数设置和损失函数设计。此外,框架中还引入了神经网络架构,以增强控制策略的表达能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的方法在离散双积分器的控制任务中,相较于基线方法,性能提升显著,尤其在面对静态和动态障碍物时,安全性得到了有效保障。
🎯 应用场景
该研究的潜在应用领域包括自动驾驶、无人机控制和机器人导航等安全关键系统。通过确保在动态环境中的安全性和性能,该框架能够为复杂任务提供可靠的解决方案,具有重要的实际价值和未来影响。
📄 摘要(原文)
Optimal control strategies are often combined with safety certificates to ensure both performance and safety in safety-critical systems. A prominent example is combining Model Predictive Control (MPC) with Control Barrier Functions (CBF). Yet, efficient tuning of MPC parameters and choosing an appropriate class $\mathcal{K}$ function in the CBF is challenging and problem dependent. This paper introduces a safe model-based Reinforcement Learning (RL) framework where a parametric MPC controller incorporates a CBF constraint with a parameterized class $\mathcal{K}$ function and serves as a function approximator to learn improved safe control policies from data. Three variations of the framework are introduced, distinguished by the way the optimization problem is formulated and the class $\mathcal{K}$ function is parameterized, including neural architectures. Numerical experiments on a discrete double-integrator with static and dynamic obstacles demonstrate that the proposed methods improve performance while ensuring safety.