Dyna-Style Safety Augmented Reinforcement Learning: Staying Safe in the Face of Uncertainty

📄 arXiv: 2604.25508v1 📥 PDF

作者: Artur Eisele, Bernd Frauenknecht, Friedrich Solowjow, Sebastian Trimpe

分类: cs.LG

发布日期: 2026-04-28


💡 一句话要点

提出Dyna-SAuR算法,通过学习动态模型和安全滤波器提升强化学习安全性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 安全性 安全滤波器 动态模型 不确定性 机器人 控制策略

📋 核心要点

  1. 强化学习在训练过程中的安全性是一个挑战,尤其是在高维和动态未知的环境中,现有安全滤波器方法难以有效应用。
  2. Dyna-SAuR算法通过学习动态模型和不确定性估计,构建安全滤波器,引导智能体避开危险区域,从而提升安全性。
  3. 实验表明,Dyna-SAuR在CartPole和MuJoCo Walker环境中显著减少了失败次数,安全性优于现有方法。

📝 摘要(中文)

强化学习(RL)中的安全性仍然是一个开放性问题,尤其是在训练期间。虽然安全滤波器在解决安全探索方面很有前景,但它们通常不太适合具有未知动态的高维系统。我们提出了一种新的算法Dyna-style Safety Augmented Reinforcement Learning (Dyna-SAuR),该算法使用学习到的、具有不确定性意识的动态模型来学习可扩展的安全滤波器和控制策略,同时只需要最少的领域知识。该滤波器避免了失败和高不确定性区域。因此,更好的模型扩展了安全和确定状态的集合,降低了滤波器的保守性。我们在目标到达CartPole以及MuJoCo Walker上展示了Dyna-SAuR的有效性,与最先进的方法相比,减少了两个数量级的失败。

🔬 方法详解

问题定义:强化学习在实际应用中面临安全问题,尤其是在训练阶段。传统的安全滤波器在高维、动态未知的环境中表现不佳,容易导致智能体进入危险状态或区域,造成不可逆的损失。现有方法往往需要大量的领域知识或人工干预,难以适应复杂环境。

核心思路:Dyna-SAuR的核心思想是利用学习到的动态模型来预测未来的状态和不确定性,并基于此构建安全滤波器。该滤波器能够识别并避免高风险区域,从而保证智能体在探索过程中的安全性。通过不断学习和改进动态模型,安全滤波器能够逐渐放宽限制,提高智能体的探索效率。

技术框架:Dyna-SAuR算法包含以下主要模块:1) 动态模型学习模块:利用强化学习数据学习环境的动态模型,并估计模型的不确定性。2) 安全滤波器构建模块:基于学习到的动态模型和不确定性估计,构建安全滤波器,用于评估当前状态的安全性。3) 控制策略学习模块:利用强化学习算法学习控制策略,同时考虑安全滤波器的约束,避免进入危险区域。整体流程是,智能体首先利用当前策略与环境交互,收集数据并更新动态模型。然后,基于更新后的动态模型构建安全滤波器。最后,利用强化学习算法更新控制策略,并重复以上步骤。

关键创新:Dyna-SAuR的关键创新在于将动态模型学习和安全滤波器构建相结合,利用学习到的不确定性信息来提高安全滤波器的准确性和鲁棒性。与传统的安全滤波器相比,Dyna-SAuR不需要大量的领域知识,能够自动适应复杂环境。此外,Dyna-SAuR通过不断学习和改进动态模型,能够逐渐放宽安全滤波器的限制,提高智能体的探索效率。

关键设计:动态模型通常采用高斯过程或神经网络等模型,用于预测下一个状态和不确定性。安全滤波器可以基于置信区间或风险度量等指标来判断状态的安全性。控制策略学习可以采用各种强化学习算法,如TRPO、PPO等。损失函数通常包含奖励函数和安全约束项,用于平衡性能和安全性。关键参数包括动态模型的学习率、安全滤波器的阈值、以及强化学习算法的学习率等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Dyna-SAuR在CartPole和MuJoCo Walker环境中显著减少了失败次数,与最先进的方法相比,减少了两个数量级的失败。这表明Dyna-SAuR能够有效地提高强化学习的安全性,尤其是在高维和动态未知的环境中。此外,实验还表明,Dyna-SAuR能够随着动态模型的不断学习和改进,逐渐放宽安全滤波器的限制,提高智能体的探索效率。

🎯 应用场景

Dyna-SAuR算法可应用于各种需要安全保障的强化学习任务中,例如机器人导航、自动驾驶、资源调度等。在这些场景中,智能体需要在复杂且不确定的环境中进行决策,同时避免进入危险状态或区域。Dyna-SAuR能够有效地提高智能体的安全性,降低事故发生的概率,具有重要的实际应用价值。

📄 摘要(原文)

Safety remains an open problem in reinforcement learning (RL), especially during training. While safety filters are promising to address safe exploration, they are generally poorly suited for high-dimensional systems with unknown dynamics. We propose Dyna-style Safety Augmented Reinforcement Learning (Dyna-SAuR), a novel algorithm that learns both a scalable safety filter and a control policy using a learned uncertainty-aware dynamics model, while requiring minimal domain knowledge. The filter avoids failures and high uncertainty regions. Thus, better models expand the set of safe and certain states, reducing filter conservatism. We present the effectiveness of Dyna-SAuR on goal-reaching CartPole as well as MuJoCo Walker, reducing failures compared to state-of-the-art methods by 2 orders of magnitude.