Safe model-based Reinforcement Learning via Model Predictive Control and Control Barrier Functions

作者: Kerim Dzhumageldyev, Filippo Airaldi, Azita Dabiri

分类: eess.SY

发布日期: 2025-12-04

备注: Submitted to IFAC WC 2026, 7 pages, 3 figures

💡 一句话要点

提出安全模型基础强化学习框架以解决控制安全性问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 模型预测控制 控制屏障函数 强化学习 安全控制 自适应控制 动态环境 数值实验

📋 核心要点

现有的模型预测控制（MPC）与控制屏障函数（CBF）结合的策略在参数调优和类$ ext{K}$函数选择上存在挑战，影响了其广泛应用。
本文提出了一种安全的模型基础强化学习框架，通过参数化的MPC控制器与CBF约束结合，利用数据学习安全控制策略。
数值实验在离散双积分器上进行，结果显示所提方法在确保安全的同时显著提升了控制性能。

📝 摘要（中文）

在安全关键系统中，最优控制策略常与安全证书结合，以确保性能和安全性。本文提出了一种安全的模型基础强化学习框架，该框架通过参数化的模型预测控制器（MPC）结合控制屏障函数（CBF）约束，作为函数逼近器从数据中学习改进的安全控制策略。框架的三种变体通过优化问题的不同形式和参数化的类$ ext{K}$函数进行区分，包括神经网络架构。数值实验表明，所提出的方法在确保安全的同时提高了性能。

🔬 方法详解

问题定义：本文旨在解决在安全关键系统中，如何有效结合模型预测控制（MPC）与控制屏障函数（CBF）以确保安全性和性能的问题。现有方法在参数调优和类$ ext{K}$函数选择上存在困难，导致其在实际应用中的局限性。

核心思路：论文提出的框架通过将参数化的MPC控制器与CBF约束结合，利用强化学习从数据中学习安全控制策略。这种设计使得控制器能够在动态环境中适应并优化安全性。

技术框架：整体架构包括三个主要模块：参数化的MPC控制器、CBF约束和强化学习策略。MPC控制器负责生成控制输入，CBF约束确保系统在运行过程中的安全性，而强化学习则用于从历史数据中学习改进的控制策略。

关键创新：本文的主要创新在于将MPC与CBF结合，并通过强化学习实现自适应控制策略的学习。这一方法与传统的MPC和CBF结合方式不同，提供了更高的灵活性和适应性。

关键设计：在设计中，类$ ext{K}$函数的参数化方式是关键，论文探讨了不同的参数设置和损失函数设计。此外，框架中还引入了神经网络架构，以增强控制策略的表达能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，所提出的方法在离散双积分器的控制任务中，相较于基线方法，性能提升显著，尤其在面对静态和动态障碍物时，安全性得到了有效保障。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶、无人机控制和机器人导航等安全关键系统。通过确保在动态环境中的安全性和性能，该框架能够为复杂任务提供可靠的解决方案，具有重要的实际价值和未来影响。

📄 摘要（原文）

Optimal control strategies are often combined with safety certificates to ensure both performance and safety in safety-critical systems. A prominent example is combining Model Predictive Control (MPC) with Control Barrier Functions (CBF). Yet, efficient tuning of MPC parameters and choosing an appropriate class $\mathcal{K}$ function in the CBF is challenging and problem dependent. This paper introduces a safe model-based Reinforcement Learning (RL) framework where a parametric MPC controller incorporates a CBF constraint with a parameterized class $\mathcal{K}$ function and serves as a function approximator to learn improved safe control policies from data. Three variations of the framework are introduced, distinguished by the way the optimization problem is formulated and the class $\mathcal{K}$ function is parameterized, including neural architectures. Numerical experiments on a discrete double-integrator with static and dynamic obstacles demonstrate that the proposed methods improve performance while ensuring safety.

Safe model-based Reinforcement Learning via Model Predictive Control and Control Barrier Functions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理