Constraint-Aware Reinforcement Learning via Adaptive Action Scaling
作者: Murad Dawood, Usama Ahmed Siddiquie, Shahram Khorshidi, Maren Bennewitz
分类: cs.RO, cs.LG, eess.SY
发布日期: 2025-10-13
💡 一句话要点
提出基于自适应动作缩放的约束感知强化学习方法,提升安全性和性能。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 安全强化学习 约束感知 动作缩放 成本感知 Safety Gym
📋 核心要点
- 现有安全强化学习方法在奖励和安全之间难以平衡,或依赖外部安全过滤器,限制了探索和泛化能力。
- 论文提出一种模块化的成本感知调节器,通过自适应缩放动作而非直接覆盖,实现更平滑和安全的探索。
- 实验表明,该方法在Safety Gym任务中显著降低了约束违反,同时提高了回报,优于现有方法。
📝 摘要(中文)
本研究提出了一种约束感知的强化学习方法,旨在解决训练过程中因探索而产生的违反约束问题,同时保持任务性能。现有方法通常依赖于单一策略来联合优化奖励和安全性,这可能因目标冲突而导致不稳定,或者使用外部安全过滤器来覆盖动作,这需要预先了解系统知识。本文提出了一种模块化的成本感知调节器,该调节器基于预测的约束违反情况来缩放智能体的动作,通过平滑的动作调制来保持探索,而不是覆盖策略。该调节器经过训练,可以最大限度地减少约束违反,同时避免对动作的退化抑制。我们的方法与SAC和TD3等离线强化学习方法无缝集成,并在具有稀疏成本的Safety Gym运动任务上实现了最先进的回报与成本比率,与先前方法相比,约束违反减少了高达126倍,同时回报增加了一个数量级以上。
🔬 方法详解
问题定义:现有安全强化学习方法主要存在两个痛点:一是依赖单一策略同时优化奖励和安全,容易导致训练不稳定;二是使用外部安全过滤器直接覆盖动作,虽然保证了安全性,但牺牲了探索能力,且需要预先了解系统知识。因此,如何在保证安全性的前提下,维持智能体的探索能力,是本论文要解决的核心问题。
核心思路:论文的核心思路是引入一个模块化的成本感知调节器,该调节器不直接覆盖智能体的动作,而是根据预测的约束违反情况,自适应地缩放智能体的动作。通过这种平滑的动作调制,既可以降低约束违反的风险,又可以保留智能体的探索能力。调节器的目标是最小化约束违反,同时避免对动作的过度抑制。
技术框架:整体框架包含一个标准的强化学习智能体(如SAC或TD3)和一个成本感知调节器。智能体根据环境状态输出动作,调节器接收智能体的动作和环境状态,预测约束违反情况,并根据预测结果对动作进行缩放,然后将缩放后的动作发送到环境中执行。调节器与智能体可以独立训练,实现模块化设计。
关键创新:最重要的技术创新点在于自适应动作缩放机制。与直接覆盖动作的策略相比,自适应动作缩放能够更平滑地调整智能体的行为,从而更好地平衡安全性和探索能力。此外,调节器的训练目标是最小化约束违反,同时避免对动作的过度抑制,这有助于防止调节器退化为简单的动作抑制器。
关键设计:调节器通常采用神经网络结构,输入为环境状态和智能体的动作,输出为动作的缩放因子。损失函数包含两部分:一部分是约束违反损失,用于惩罚违反约束的行为;另一部分是动作抑制损失,用于防止调节器过度抑制动作。具体实现中,可以采用不同的神经网络结构和损失函数形式,例如,可以使用均方误差损失来衡量约束违反程度,并使用L1正则化来约束动作缩放因子的幅度。
📊 实验亮点
实验结果表明,该方法在Safety Gym locomotion任务上取得了显著的性能提升。与现有方法相比,约束违反减少了高达126倍,同时回报增加了一个数量级以上。这表明该方法能够有效地平衡安全性和性能,并在具有挑战性的安全强化学习任务中表现出色。此外,该方法与SAC和TD3等离线强化学习方法无缝集成,具有良好的通用性和可扩展性。
🎯 应用场景
该研究成果可应用于各种需要安全保障的强化学习任务中,例如自动驾驶、机器人控制、医疗决策等。通过自适应地调整智能体的行为,可以有效降低事故风险,提高系统的可靠性和安全性。此外,该方法还可以应用于资源受限的环境中,通过约束资源消耗,实现更高效的资源利用。
📄 摘要(原文)
Safe reinforcement learning (RL) seeks to mitigate unsafe behaviors that arise from exploration during training by reducing constraint violations while maintaining task performance. Existing approaches typically rely on a single policy to jointly optimize reward and safety, which can cause instability due to conflicting objectives, or they use external safety filters that override actions and require prior system knowledge. In this paper, we propose a modular cost-aware regulator that scales the agent's actions based on predicted constraint violations, preserving exploration through smooth action modulation rather than overriding the policy. The regulator is trained to minimize constraint violations while avoiding degenerate suppression of actions. Our approach integrates seamlessly with off-policy RL methods such as SAC and TD3, and achieves state-of-the-art return-to-cost ratios on Safety Gym locomotion tasks with sparse costs, reducing constraint violations by up to 126 times while increasing returns by over an order of magnitude compared to prior methods.