Risk-Aware Safe Reinforcement Learning for Control of Stochastic Linear Systems

📄 arXiv: 2505.09734v1 📥 PDF

作者: Babak Esmaeili, Nariman Niknejad, Hamidreza Modares

分类: eess.SY, cs.LG, cs.RO, math.OC

发布日期: 2025-05-14

备注: Submitted to Asian Journal of Control


💡 一句话要点

提出一种风险感知的安全强化学习方法,用于控制随机线性系统。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 安全强化学习 风险感知控制 随机线性系统 数据驱动控制 分段仿射控制器

📋 核心要点

  1. 现有安全强化学习方法依赖高保真模型或短视干预,限制了其在复杂随机系统中的应用。
  2. 该论文提出一种结合风险感知安全控制器和RL控制器的策略,通过优化决策变量降低安全违规概率。
  3. 实验结果表明,该方法在保证安全性的同时,降低了数据需求,并能有效减少安全违规的方差。

📝 摘要(中文)

本文提出了一种针对随机离散时间线性系统的风险感知的安全强化学习(RL)控制设计。与使用安全认证器来短视地干预RL控制器不同,除了RL控制器之外,还学习了一个风险知情的安全控制器,并将RL控制器和安全控制器结合在一起。这种方法有几个优点:1) 可以在不依赖高保真系统模型和使用有限可用数据的情况下认证高置信度的安全性;2) 通过决定两个稳定控制器的贡献,可以避免短视干预和收敛到不期望的平衡;3) 通过优化标量决策变量和线性规划多面体集,可以提供高效且计算上易于处理的解决方案。为了学习具有大型不变集的安全控制器,学习分段仿射控制器而不是线性控制器。为此,首先使用收集的数据、决策变量和噪声来表示闭环系统。形式化了决策变量对闭环系统安全违规方差的影响。然后设计决策变量,以最小化学习的闭环系统的安全违规概率。结果表明,这种面向控制的方法减少了数据需求,并且还可以减少安全违规的方差。最后,为了集成安全控制器和RL控制器,引入了一种新的数据驱动的插值技术。该方法旨在保持RL智能体的最佳实现,同时确保其在具有噪声的环境中的安全性。该研究最后通过一个仿真示例来验证理论结果。

🔬 方法详解

问题定义:论文旨在解决随机线性系统控制中的安全强化学习问题。现有方法通常依赖于高保真系统模型进行安全认证,或者采用短视的安全干预策略,这些方法在实际应用中存在局限性,例如模型不准确或干预导致性能下降。因此,如何在数据有限的情况下,设计一种既能保证系统安全,又能充分利用强化学习算法优势的控制策略是本文要解决的核心问题。

核心思路:论文的核心思路是同时学习一个强化学习控制器和一个风险感知的安全控制器,并通过一个决策变量来动态地调整两个控制器的贡献。这种方法避免了对高保真模型的依赖,并且能够通过优化决策变量来最小化安全违规的概率。通过结合两个控制器的优势,可以在保证安全性的同时,尽可能地保持强化学习控制器的性能。

技术框架:整体框架包含以下几个主要模块:1) 数据收集模块,用于收集系统运行的数据;2) 安全控制器学习模块,使用收集的数据学习一个分段仿射安全控制器,该控制器具有较大的不变集;3) 强化学习控制器学习模块,使用标准的强化学习算法学习一个性能优良的控制器;4) 决策变量优化模块,通过优化一个标量决策变量,最小化闭环系统的安全违规概率;5) 控制器集成模块,使用数据驱动的插值技术,将安全控制器和强化学习控制器集成在一起。

关键创新:论文的关键创新在于提出了一种风险感知的安全强化学习框架,该框架能够同时学习安全控制器和强化学习控制器,并通过优化决策变量来动态地调整两个控制器的贡献。与现有方法相比,该方法不需要高保真系统模型,并且能够有效地降低安全违规的概率。此外,论文还提出了一种新的数据驱动的插值技术,用于集成安全控制器和强化学习控制器。

关键设计:论文的关键设计包括:1) 使用分段仿射控制器来扩大安全控制器的不变集;2) 形式化了决策变量对闭环系统安全违规方差的影响;3) 设计决策变量以最小化学习的闭环系统的安全违规概率;4) 提出了一种数据驱动的插值技术,用于集成安全控制器和强化学习控制器。损失函数的设计目标是最小化安全违规的概率,同时尽可能地保持强化学习控制器的性能。决策变量的优化采用线性规划方法,以保证计算效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过仿真实验验证了所提出方法的有效性。实验结果表明,该方法能够在保证安全性的同时,降低数据需求,并有效减少安全违规的方差。与传统的安全强化学习方法相比,该方法在性能和安全性方面都具有优势。具体的性能数据和对比基线在论文中进行了详细的描述。

🎯 应用场景

该研究成果可应用于各种需要安全保障的控制系统,例如自动驾驶、机器人控制、航空航天等领域。通过该方法,可以在数据有限的情况下,设计出既能保证系统安全,又能充分利用强化学习算法优势的控制策略,从而提高系统的性能和可靠性。未来,该方法有望在更多实际场景中得到应用,并为安全强化学习领域的发展做出贡献。

📄 摘要(原文)

This paper presents a risk-aware safe reinforcement learning (RL) control design for stochastic discrete-time linear systems. Rather than using a safety certifier to myopically intervene with the RL controller, a risk-informed safe controller is also learned besides the RL controller, and the RL and safe controllers are combined together. Several advantages come along with this approach: 1) High-confidence safety can be certified without relying on a high-fidelity system model and using limited data available, 2) Myopic interventions and convergence to an undesired equilibrium can be avoided by deciding on the contribution of two stabilizing controllers, and 3) highly efficient and computationally tractable solutions can be provided by optimizing over a scalar decision variable and linear programming polyhedral sets. To learn safe controllers with a large invariant set, piecewise affine controllers are learned instead of linear controllers. To this end, the closed-loop system is first represented using collected data, a decision variable, and noise. The effect of the decision variable on the variance of the safe violation of the closed-loop system is formalized. The decision variable is then designed such that the probability of safety violation for the learned closed-loop system is minimized. It is shown that this control-oriented approach reduces the data requirements and can also reduce the variance of safety violations. Finally, to integrate the safe and RL controllers, a new data-driven interpolation technique is introduced. This method aims to maintain the RL agent's optimal implementation while ensuring its safety within environments characterized by noise. The study concludes with a simulation example that serves to validate the theoretical results.