Safe Reinforcement Learning in Black-Box Environments via Adaptive Shielding

📄 arXiv: 2405.18180v3 📥 PDF

作者: Daniel Bethell, Simos Gerasimou, Radu Calinescu, Calum Imrie

分类: cs.AI, cs.LG

发布日期: 2024-05-28 (更新: 2025-08-26)

备注: To be published in ECAI 25


💡 一句话要点

提出ADVICE,通过自适应屏蔽提升黑盒环境下的强化学习安全性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 安全强化学习 黑盒环境 自适应屏蔽 对比自编码器 后屏蔽技术

📋 核心要点

  1. 黑盒环境下的强化学习安全探索面临挑战,缺乏先验知识导致智能体易发生危险行为。
  2. ADVICE通过对比自编码器区分安全与不安全特征,构建自适应屏蔽机制,避免高风险动作。
  3. 实验表明,ADVICE显著降低了安全违规次数,同时保持了与现有方法相当的奖励水平。

📝 摘要(中文)

在许多实际应用场景中,强化学习(RL)智能体在训练期间的安全探索至关重要。当缺乏领域或任务的先验知识时,在未知的黑盒环境中训练RL智能体带来了更大的安全风险。本文提出了一种新颖的后屏蔽技术ADVICE(基于对比自编码器的自适应屏蔽),该技术区分训练期间状态-动作对的安全和不安全特征,并利用这些知识来保护RL智能体免于执行可能导致危险结果的动作。与最先进的安全RL探索技术相比,全面的实验评估表明,ADVICE在训练期间显著减少了安全违规(约50%),并且与其他技术相比,获得了具有竞争力的结果奖励。

🔬 方法详解

问题定义:在黑盒环境中,强化学习智能体缺乏关于环境的先验知识,因此在探索过程中容易采取导致危险或不安全后果的动作。现有的安全强化学习方法通常依赖于对环境的某些假设或约束,但在完全未知的黑盒环境中这些假设可能不成立,导致安全性能下降。

核心思路:ADVICE的核心思路是通过学习区分状态-动作对中的安全和不安全特征,从而构建一个自适应的屏蔽机制。该机制能够识别出可能导致危险后果的动作,并在智能体执行这些动作之前进行干预,从而保证训练过程的安全性。这种方法不需要对环境进行任何假设,因此适用于黑盒环境。

技术框架:ADVICE的技术框架主要包含三个模块:强化学习智能体、对比自编码器和自适应屏蔽。强化学习智能体负责与环境交互并学习策略。对比自编码器用于学习状态-动作对的特征表示,并区分安全和不安全特征。自适应屏蔽根据对比自编码器的输出,判断当前状态-动作对是否安全,如果判断为不安全,则阻止智能体执行该动作。

关键创新:ADVICE的关键创新在于使用对比自编码器来学习状态-动作对的特征表示,并利用这些特征来构建自适应屏蔽。与传统的基于规则或模型的屏蔽方法相比,ADVICE能够自动学习环境的安全约束,并且能够适应环境的变化。此外,ADVICE是一种后屏蔽技术,可以与任何强化学习算法结合使用。

关键设计:对比自编码器的输入是状态-动作对,输出是重构的状态-动作对。对比损失函数用于训练自编码器,使得安全状态-动作对的重构误差小于不安全状态-动作对的重构误差。自适应屏蔽根据对比自编码器的重构误差来判断当前状态-动作对是否安全。具体来说,如果重构误差大于一个阈值,则认为该状态-动作对不安全,并阻止智能体执行该动作。阈值可以根据训练过程中的安全违规次数进行自适应调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ADVICE在多个基准测试环境中显著降低了安全违规次数,平均降低约50%,同时保持了与现有安全强化学习方法相当的奖励水平。与不使用屏蔽的强化学习智能体相比,ADVICE能够更安全地探索环境,并且能够更快地学习到最优策略。此外,实验还验证了ADVICE的鲁棒性,表明其能够适应不同的环境和任务。

🎯 应用场景

ADVICE适用于需要在安全性至关重要的黑盒环境中部署强化学习智能体的场景,例如自动驾驶、机器人控制、医疗诊断等。在这些场景中,智能体需要在没有先验知识的情况下进行探索,并且必须避免采取可能导致危险或不安全后果的动作。ADVICE可以有效地降低安全风险,提高智能体的可靠性和安全性,为强化学习在实际应用中的推广提供保障。

📄 摘要(原文)

Empowering safe exploration of reinforcement learning (RL) agents during training is a critical challenge towards their deployment in many real-world scenarios. When prior knowledge of the domain or task is unavailable, training RL agents in unknown, black-box environments presents an even greater safety risk. We introduce ADVICE (Adaptive Shielding with a Contrastive Autoencoder), a novel post-shielding technique that distinguishes safe and unsafe features of state-action pairs during training, and uses this knowledge to protect the RL agent from executing actions that yield likely hazardous outcomes. Our comprehensive experimental evaluation against state-of-the-art safe RL exploration techniques shows that ADVICE significantly reduces safety violations (approx 50%) during training, with a competitive outcome reward compared to other techniques.