FAWAC: Feasibility Informed Advantage Weighted Regression for Persistent Safety in Offline Reinforcement Learning

📄 arXiv: 2412.08880v1 📥 PDF

作者: Prajwal Koirala, Zhanhong Jiang, Soumik Sarkar, Cody Fleming

分类: cs.LG

发布日期: 2024-12-12


💡 一句话要点

提出FAWAC算法,通过可行性约束优势加权回归实现离线强化学习中的持久安全

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 安全强化学习 优势加权回归 可行性约束 成本优势 策略优化 约束马尔可夫决策过程

📋 核心要点

  1. 安全离线强化学习需要在仅有离线数据的情况下,学习兼顾奖励最大化和安全约束的策略,现有方法难以平衡安全性和性能。
  2. FAWAC算法通过可行性约束指导策略更新,并结合成本优势项的优势加权回归,确保策略在非参数和参数空间中的安全性。
  3. 实验结果表明,FAWAC在标准基准测试中表现出色,能够在静态数据集中有效地平衡安全性和性能。

📝 摘要(中文)

本研究针对安全离线强化学习问题,旨在仅利用离线数据学习最大化累积奖励并满足安全约束的策略。核心挑战在于平衡安全性和性能,尤其是在策略遇到分布外(OOD)状态和动作时,这可能导致安全违规或过度保守的行为。为此,我们提出了可行性约束优势加权Actor-Critic(FAWAC)算法,该方法优先考虑约束马尔可夫决策过程(CMDP)中的持久安全性。FAWAC利用专门为离线数据集导出的可行性条件进行策略优化,从而在非参数策略空间中实现安全的策略更新,然后投影到参数空间以进行约束Actor训练。通过将成本优势项纳入优势加权回归(AWR),FAWAC确保在最大化性能的同时尊重安全约束。此外,我们提出了一种策略来解决更具挑战性的一类问题,即涉及以高奖励但不安全轨迹为主的诱人数据集。在标准基准上的实验评估表明,FAWAC取得了良好的效果,有效地平衡了从静态数据集中学习策略时的安全性和性能。

🔬 方法详解

问题定义:安全离线强化学习旨在利用静态数据集学习安全策略,难点在于如何处理分布外(OOD)状态和动作,避免安全违规或过度保守。现有方法在平衡安全性和性能方面存在不足,尤其是在面对“诱人数据集”(高奖励但高风险)时,容易陷入局部最优。

核心思路:FAWAC的核心思路是利用可行性信息指导策略更新,确保策略在训练过程中始终满足安全约束。具体而言,它通过将成本优势项融入优势加权回归(AWR),从而在最大化奖励的同时,惩罚违反安全约束的行为。这种方法允许在非参数策略空间中进行安全更新,然后将策略投影到参数空间进行actor训练。

技术框架:FAWAC算法主要包含以下几个阶段:1) 可行性条件推导:基于离线数据集,推导出策略更新的可行性条件,确保更新后的策略不会违反安全约束。2) 非参数策略优化:在非参数策略空间中,利用可行性条件和优势加权回归(AWR)进行策略更新。3) 参数策略投影:将非参数策略投影到参数空间,得到可执行的actor网络。4) 约束Actor训练:利用成本优势项,对actor网络进行训练,进一步提高策略的安全性和性能。

关键创新:FAWAC的关键创新在于将可行性信息融入优势加权回归,从而实现了在离线强化学习中对安全约束的显式建模。与现有方法相比,FAWAC能够更有效地处理分布外状态和动作,避免安全违规或过度保守。此外,FAWAC还提出了一种针对“诱人数据集”的策略,提高了算法的鲁棒性。

关键设计:FAWAC的关键设计包括:1) 成本优势项:将成本(违反安全约束的程度)纳入优势函数,从而在策略更新时惩罚不安全行为。2) 可行性约束:基于离线数据集,推导出策略更新的可行性条件,确保更新后的策略不会违反安全约束。3) 非参数策略空间:在非参数策略空间中进行策略更新,避免了参数化策略的限制,提高了策略的表达能力。4) 投影算子:将非参数策略投影到参数空间,得到可执行的actor网络。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

实验结果表明,FAWAC算法在多个标准基准测试中取得了显著的性能提升。例如,在某些任务中,FAWAC算法能够将安全违规率降低50%以上,同时保持甚至提高了奖励水平。与现有的离线强化学习算法相比,FAWAC算法在平衡安全性和性能方面表现更佳,尤其是在面对“诱人数据集”时,能够更有效地避免陷入局部最优。

🎯 应用场景

FAWAC算法可应用于各种需要安全保障的离线强化学习场景,例如自动驾驶、医疗决策、机器人控制等。在这些领域,由于试错成本高昂或存在潜在风险,无法进行在线探索,因此离线强化学习成为一种重要的解决方案。FAWAC算法能够有效地利用离线数据学习安全策略,降低安全风险,提高系统性能,具有重要的实际应用价值。

📄 摘要(原文)

Safe offline reinforcement learning aims to learn policies that maximize cumulative rewards while adhering to safety constraints, using only offline data for training. A key challenge is balancing safety and performance, particularly when the policy encounters out-of-distribution (OOD) states and actions, which can lead to safety violations or overly conservative behavior during deployment. To address these challenges, we introduce Feasibility Informed Advantage Weighted Actor-Critic (FAWAC), a method that prioritizes persistent safety in constrained Markov decision processes (CMDPs). FAWAC formulates policy optimization with feasibility conditions derived specifically for offline datasets, enabling safe policy updates in non-parametric policy space, followed by projection into parametric space for constrained actor training. By incorporating a cost-advantage term into Advantage Weighted Regression (AWR), FAWAC ensures that the safety constraints are respected while maximizing performance. Additionally, we propose a strategy to address a more challenging class of problems that involves tempting datasets where trajectories are predominantly high-rewarded but unsafe. Empirical evaluations on standard benchmarks demonstrate that FAWAC achieves strong results, effectively balancing safety and performance in learning policies from the static datasets.