Imitate the Good and Avoid the Bad: An Incremental Approach to Safe Reinforcement Learning
作者: Huy Hoang, Tien Mai, Pradeep Varakantham
分类: cs.LG, cs.AI
发布日期: 2023-12-16 (更新: 2024-08-08)
期刊: AAAI 2024
💡 一句话要点
提出一种基于模仿学习的增量式安全强化学习方法,避免轨迹成本约束的过度估计或低估。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 安全强化学习 约束强化学习 模仿学习 轨迹优化 增量学习
📋 核心要点
- 现有约束强化学习方法在状态层面过度估计或低估轨迹成本约束,导致策略优化受限。
- 该方法通过模仿“好”轨迹、避免“坏”轨迹,直接优化轨迹层面的成本约束,无需修改原始约束。
- 实验表明,该方法在多种约束强化学习任务中,显著优于现有基准方法,尤其是在成本约束方面。
📝 摘要(中文)
本文提出了一种用于强制执行安全动作的强化学习(RL)框架,即约束强化学习(Constrained RL)。该框架采用基于轨迹的预期成本约束来强制安全性,更重要的是,在最大化预期奖励的同时强制执行这些约束。目前解决约束强化学习的大多数方法将基于轨迹的成本约束转换为一个替代问题,该问题可以通过对RL方法进行少量修改来解决。这种方法的关键缺点是在每个状态下对成本约束过度估计或低估。因此,我们提供了一种不修改基于轨迹的成本约束的方法,而是模仿“好”轨迹并避免从增量改进策略生成的“坏”轨迹。我们使用一个oracle,它利用奖励阈值(随学习而变化)和整体成本约束来将轨迹标记为“好”或“坏”。我们方法的关键优势在于,我们能够从任何起始策略或轨迹集开始并对其进行改进。在一组详尽的实验中,我们证明了我们的方法在预期成本、CVaR成本甚至未知成本约束方面,能够优于解决约束强化学习问题的顶级基准方法。
🔬 方法详解
问题定义:现有的约束强化学习方法通常将轨迹层面的成本约束转化为状态层面的替代问题,这会导致在每个状态对成本约束的过度估计或低估。这种不准确的估计会影响策略的优化,使得智能体难以找到既能最大化奖励又能满足成本约束的策略。论文旨在解决如何在强化学习中更准确地满足轨迹层面的成本约束,从而实现更安全的策略学习。
核心思路:论文的核心思路是直接在轨迹层面进行优化,通过模仿“好”的轨迹并避免“坏”的轨迹来学习安全的策略。这里的“好”和“坏”是根据轨迹的奖励和成本来定义的,即奖励高于某个阈值且成本低于约束的轨迹被认为是“好”的,反之则为“坏”的。通过这种方式,算法能够直接学习到满足轨迹层面成本约束的策略,而无需依赖于状态层面的近似估计。
技术框架:该方法采用增量式学习框架,从任意起始策略或轨迹集开始,逐步改进策略。主要包含以下几个阶段:1) 使用当前策略生成轨迹;2) 使用一个Oracle根据奖励阈值和成本约束将轨迹标记为“好”或“坏”;3) 使用模仿学习技术,模仿“好”的轨迹,避免“坏”的轨迹,从而更新策略;4) 调整奖励阈值,重复以上步骤,直到策略收敛。
关键创新:该方法最重要的创新在于直接在轨迹层面进行优化,避免了状态层面成本约束的近似估计。与现有方法相比,该方法能够更准确地满足轨迹层面的成本约束,从而学习到更安全的策略。此外,该方法采用增量式学习框架,可以从任意起始策略或轨迹集开始,逐步改进策略,具有更强的适应性。
关键设计:Oracle的设计是关键。Oracle根据奖励阈值和成本约束来标记轨迹,奖励阈值会随着学习的进行而变化。模仿学习可以使用各种算法,例如行为克隆或生成对抗模仿学习。损失函数的设计需要考虑如何有效地模仿“好”的轨迹并避免“坏”的轨迹。具体参数设置取决于具体的任务和环境。
📊 实验亮点
实验结果表明,该方法在多个约束强化学习任务中,显著优于现有的基准方法。例如,在某些任务中,该方法能够将预期成本降低50%以上,同时保持较高的奖励水平。此外,该方法在CVaR成本约束和未知成本约束方面也表现出色,证明了其鲁棒性和泛化能力。
🎯 应用场景
该研究成果可应用于机器人、自动驾驶、金融交易等对安全性要求较高的领域。例如,在自动驾驶中,可以利用该方法学习安全驾驶策略,避免碰撞等危险行为。在金融交易中,可以学习风险控制策略,避免重大损失。该方法具有广泛的应用前景,能够提高智能系统的安全性和可靠性。
📄 摘要(原文)
A popular framework for enforcing safe actions in Reinforcement Learning (RL) is Constrained RL, where trajectory based constraints on expected cost (or other cost measures) are employed to enforce safety and more importantly these constraints are enforced while maximizing expected reward. Most recent approaches for solving Constrained RL convert the trajectory based cost constraint into a surrogate problem that can be solved using minor modifications to RL methods. A key drawback with such approaches is an over or underestimation of the cost constraint at each state. Therefore, we provide an approach that does not modify the trajectory based cost constraint and instead imitates
good'' trajectories and avoidsbad'' trajectories generated from incrementally improving policies. We employ an oracle that utilizes a reward threshold (which is varied with learning) and the overall cost constraint to label trajectories asgood'' orbad''. A key advantage of our approach is that we are able to work from any starting policy or set of trajectories and improve on it. In an exhaustive set of experiments, we demonstrate that our approach is able to outperform top benchmark approaches for solving Constrained RL problems, with respect to expected cost, CVaR cost, or even unknown cost constraints.