Implicit Safe Set Algorithm for Provably Safe Reinforcement Learning

📄 arXiv: 2405.02754v2 📥 PDF

作者: Weiye Zhao, Feihan Li, Changliu Liu

分类: cs.RO, cs.AI, cs.LG

发布日期: 2024-05-04 (更新: 2025-08-13)

备注: Accepted to Journal of Artificial Intelligence Research. arXiv admin note: text overlap with arXiv:2308.13140


💡 一句话要点

提出隐式安全集算法,解决强化学习中安全约束难以保证的问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 安全控制 障碍证书 隐式安全集 无模型控制

📋 核心要点

  1. 传统强化学习难以保证智能体在训练过程中的安全性,容易违反安全约束。
  2. 该论文提出隐式安全集算法,通过黑盒查询动态函数来综合安全指标和安全控制律。
  3. 实验表明,该算法在Safety Gym基准测试中实现了零安全违规,并获得了较高的累积奖励。

📝 摘要(中文)

深度强化学习(DRL)在许多连续控制任务中表现出卓越的性能。然而,DRL应用于现实世界的一个重大障碍是缺乏安全保证。虽然DRL智能体可以通过奖励塑造在期望上满足系统安全,但在每个时间步始终满足硬约束(例如,安全规范)仍然是一个巨大的挑战。相比之下,安全控制领域的现有工作提供了对硬安全约束持续满足的保证。然而,这些方法需要显式的解析系统动力学模型来综合安全控制,这在DRL设置中通常是不可访问的。在本文中,我们提出了一种无模型的安全控制算法,即隐式安全集算法,用于为DRL智能体综合安全保障,确保整个训练过程中的可证明安全性。所提出的算法仅通过查询黑盒动态函数(例如,数字孪生模拟器)来综合安全指标(障碍证书)和后续的安全控制律。此外,我们从理论上证明了隐式安全集算法保证了连续时间和离散时间系统在有限时间内收敛到安全集并保持前向不变性。我们在最先进的Safety Gym基准上验证了所提出的算法,与最先进的安全DRL方法相比,它实现了零安全违规,同时获得了95%±9%的累积奖励。此外,该算法可以通过并行计算很好地扩展到高维系统。

🔬 方法详解

问题定义:现有安全控制方法依赖于显式的解析系统动力学模型,这在深度强化学习(DRL)环境中通常是不可获得的。因此,如何在模型未知的条件下,保证DRL智能体在训练过程中的安全性,避免违反硬性安全约束,是一个亟待解决的问题。现有基于奖励塑造的DRL方法虽然可以期望上满足安全,但无法保证每一步都满足安全约束。

核心思路:该论文的核心思路是利用隐式安全集算法,通过查询黑盒动态函数(例如,数字孪生模拟器)来学习一个安全指标(障碍证书),并基于此设计安全控制律。这种方法不需要显式的系统动力学模型,因此适用于模型未知的DRL环境。通过保证智能体状态始终位于安全集内,从而实现可证明的安全性。

技术框架:该算法主要包含以下几个阶段: 1. 安全指标学习:通过查询黑盒动态函数,学习一个隐式的安全指标(障碍证书),该指标能够区分安全状态和不安全状态。 2. 安全控制律设计:基于学习到的安全指标,设计一个安全控制律,该控制律能够将智能体的状态引导回安全集。 3. DRL智能体训练:将安全控制律作为保障措施,与DRL智能体结合,在训练过程中保证智能体的安全性。

关键创新:该论文最重要的技术创新在于提出了隐式安全集算法,该算法能够在模型未知的条件下,学习安全指标并设计安全控制律。与现有方法相比,该算法不需要显式的系统动力学模型,因此更适用于实际的DRL应用场景。此外,该论文还从理论上证明了该算法的收敛性和安全性。

关键设计: 1. 安全指标的表示:安全指标采用神经网络进行表示,网络的输入是智能体的状态,输出是一个标量值,用于表示该状态的安全程度。 2. 损失函数设计:损失函数的设计目标是使安全状态的安全指标值大于0,不安全状态的安全指标值小于0。同时,还需要保证安全指标在安全集边界上的梯度指向安全集内部。 3. 安全控制律的计算:安全控制律的设计目标是在智能体即将离开安全集时,施加一个控制力,将其拉回安全集。该控制力的大小与安全指标的梯度成正比。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文在Safety Gym基准测试中验证了所提出的隐式安全集算法的有效性。实验结果表明,该算法在实现零安全违规的同时,获得了95%±9%的累积奖励,显著优于现有的安全DRL方法。此外,该算法可以通过并行计算很好地扩展到高维系统,使其能够应用于更复杂的实际场景。

🎯 应用场景

该研究成果可广泛应用于机器人、自动驾驶、航空航天等需要安全保障的领域。例如,在自动驾驶中,该算法可以用于设计安全保障系统,防止车辆发生碰撞等事故。在机器人领域,该算法可以用于保证机器人在复杂环境中的安全操作。该算法的无模型特性使其更易于部署到实际系统中,具有重要的应用价值和潜力。

📄 摘要(原文)

Deep reinforcement learning (DRL) has demonstrated remarkable performance in many continuous control tasks. However, a significant obstacle to the real-world application of DRL is the lack of safety guarantees. Although DRL agents can satisfy system safety in expectation through reward shaping, designing agents to consistently meet hard constraints (e.g., safety specifications) at every time step remains a formidable challenge. In contrast, existing work in the field of safe control provides guarantees on persistent satisfaction of hard safety constraints. However, these methods require explicit analytical system dynamics models to synthesize safe control, which are typically inaccessible in DRL settings. In this paper, we present a model-free safe control algorithm, the implicit safe set algorithm, for synthesizing safeguards for DRL agents that ensure provable safety throughout training. The proposed algorithm synthesizes a safety index (barrier certificate) and a subsequent safe control law solely by querying a black-box dynamic function (e.g., a digital twin simulator). Moreover, we theoretically prove that the implicit safe set algorithm guarantees finite time convergence to the safe set and forward invariance for both continuous-time and discrete-time systems. We validate the proposed algorithm on the state-of-the-art Safety Gym benchmark, where it achieves zero safety violations while gaining $95\% \pm 9\%$ cumulative reward compared to state-of-the-art safe DRL methods. Furthermore, the resulting algorithm scales well to high-dimensional systems with parallel computing.