RVI-SAC: Average Reward Off-Policy Deep Reinforcement Learning
作者: Yukinari Hisaki, Isao Ono
分类: cs.LG
发布日期: 2024-08-04
备注: Accepted at ICML 2024; Code: https://github.com/yhisaki/average-reward-drl
💡 一句话要点
提出RVI-SAC,一种基于平均奖励的Off-Policy深度强化学习方法,适用于持续性任务。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 深度强化学习 平均奖励 Off-Policy Soft Actor-Critic 持续性任务
📋 核心要点
- 传统DRL方法在持续性任务中,折扣奖励准则可能导致训练目标与实际性能指标不一致。
- RVI-SAC通过引入平均奖励准则,并结合RVI Q-learning和平均奖励软策略改进定理来更新Critic和Actor。
- 实验表明,RVI-SAC在Mujoco任务中表现出与现有方法相当的性能,验证了其有效性。
📝 摘要(中文)
本文提出了一种利用平均奖励准则的Off-Policy深度强化学习(DRL)方法。现有的大多数DRL方法采用折扣奖励准则,但在持续性任务中,这可能导致训练目标与性能指标之间存在差异,因此平均奖励准则成为一种推荐的替代方案。我们引入了RVI-SAC,它是最先进的Off-Policy DRL方法Soft Actor-Critic (SAC)在平均奖励准则下的扩展。我们的方案包括:(1)基于RVI Q-learning的Critic更新,(2)由平均奖励软策略改进定理引入的Actor更新,以及(3)自动调整重置成本,使平均奖励强化学习能够应用于具有终止的任务。我们将我们的方法应用于Gymnasium的Mujoco任务(一个运动任务的子集),并证明RVI-SAC与现有方法相比表现出具有竞争力的性能。
🔬 方法详解
问题定义:现有深度强化学习方法,如SAC,通常使用折扣奖励准则。在持续性任务中,这种准则可能导致训练目标与实际性能指标之间存在偏差,影响学习效果。因此,需要一种更适合持续性任务的奖励准则。
核心思路:本文的核心思路是将SAC扩展到平均奖励准则下,通过优化平均奖励来学习策略。平均奖励准则更适合持续性任务,因为它关注的是长期平均性能,而不是短期内的折扣奖励。
技术框架:RVI-SAC的整体框架基于SAC,包括Actor和Critic两个主要模块。Critic使用RVI Q-learning进行更新,Actor则根据平均奖励软策略改进定理进行更新。此外,RVI-SAC还引入了自动调整重置成本的机制,使得平均奖励强化学习可以应用于具有终止的任务。
关键创新:RVI-SAC的关键创新在于将SAC成功扩展到平均奖励准则下。这包括设计了基于RVI Q-learning的Critic更新方法和基于平均奖励软策略改进定理的Actor更新方法。此外,自动调整重置成本的机制也是一个重要的创新,它使得RVI-SAC可以应用于更广泛的任务。
关键设计:RVI-SAC的关键设计包括:(1) 使用RVI Q-learning更新Critic,RVI Q-learning是一种适用于平均奖励准则的Q-learning算法。(2) 使用平均奖励软策略改进定理更新Actor,该定理保证了策略的单调改进。(3) 自动调整重置成本,通过学习一个重置成本函数来平衡探索和利用。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RVI-SAC在Gymnasium的Mujoco任务中表现出与现有方法(如SAC)相当的性能。这表明RVI-SAC成功地将SAC扩展到平均奖励准则下,并且在持续性任务中具有竞争力。虽然没有显著超越SAC,但证明了平均奖励准则在特定任务上的有效性。
🎯 应用场景
RVI-SAC适用于各种持续性任务,例如机器人导航、资源管理和游戏AI等。通过优化平均奖励,RVI-SAC可以学习到更稳定和高效的策略,从而提高任务的长期性能。该方法在智能体需要持续与环境交互并追求长期目标的场景下具有广泛的应用前景。
📄 摘要(原文)
In this paper, we propose an off-policy deep reinforcement learning (DRL) method utilizing the average reward criterion. While most existing DRL methods employ the discounted reward criterion, this can potentially lead to a discrepancy between the training objective and performance metrics in continuing tasks, making the average reward criterion a recommended alternative. We introduce RVI-SAC, an extension of the state-of-the-art off-policy DRL method, Soft Actor-Critic (SAC), to the average reward criterion. Our proposal consists of (1) Critic updates based on RVI Q-learning, (2) Actor updates introduced by the average reward soft policy improvement theorem, and (3) automatic adjustment of Reset Cost enabling the average reward reinforcement learning to be applied to tasks with termination. We apply our method to the Gymnasium's Mujoco tasks, a subset of locomotion tasks, and demonstrate that RVI-SAC shows competitive performance compared to existing methods.