ROER: Regularized Optimal Experience Replay

📄 arXiv: 2407.03995v1 📥 PDF

作者: Changling Li, Zhang-Wei Hong, Pulkit Agrawal, Divyansh Garg, Joni Pajarinen

分类: cs.LG, cs.AI, cs.RO

发布日期: 2024-07-04

期刊: Reinforcement Learning Journal, vol. 4, 2024, pp. 1598-1618

🔗 代码/项目: GITHUB


💡 一句话要点

提出ROER:基于正则化最优经验回放的强化学习方法,提升样本利用率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 经验回放 优先经验回放 正则化 最优控制

📋 核心要点

  1. 现有优先经验回放方法缺乏理论支撑,TD误差的使用动机不够明确,导致性能提升有限。
  2. 论文提出基于正则化的强化学习目标,通过优化占用率分布,推导出一种新的TD误差优先级方案ROER。
  3. 实验表明,ROER在多个连续控制任务中优于基线方法,并在Antmaze环境中展现出良好的离线到在线微调能力。

📝 摘要(中文)

经验回放是在线强化学习成功的关键组成部分。优先经验回放(PER)通过时序差分(TD)误差对经验进行重加权,从而在经验上增强性能。然而,很少有工作探索使用TD误差的动机。本文从TD误差重加权提供了一个替代视角,展示了经验优先级和占用率优化之间的联系。通过使用带有f-散度正则化项的正则化强化学习目标及其对偶形式,我们表明,通过使用基于TD误差的占用率比率将回放缓冲区中的离策略数据分布转移到在策略最优分布,可以获得目标的最优解。我们的推导产生了一个新的TD误差优先级流程。我们专门探索了KL散度作为正则化项,并获得了一种新的优先级方案,即正则化最优经验回放(ROER)。我们在连续控制MuJoCo和DM Control基准任务中使用Soft Actor-Critic(SAC)算法评估了所提出的优先级方案,其中我们提出的方案在11个任务中的6个中优于基线,而其余结果与基线匹配或没有偏离基线太远。此外,通过使用预训练,ROER在困难的Antmaze环境中实现了显着改进,而基线失败,显示了其对离线到在线微调的适用性。

🔬 方法详解

问题定义:现有的优先经验回放方法,例如PER,主要依赖TD误差来对经验进行重加权,但缺乏对TD误差作为优先级度量的理论解释。这导致了经验优先级选择的启发式方法,可能并非最优,限制了强化学习算法的性能提升。现有方法难以保证回放缓冲区中的数据分布能够有效地引导策略学习。

核心思路:论文的核心思路是将经验回放视为一个占用率分布优化的过程。通过引入一个正则化的强化学习目标,并利用其对偶形式,将经验优先级与最优占用率分布联系起来。具体来说,通过最小化策略的价值函数,同时约束回放缓冲区中的数据分布与最优策略下的数据分布之间的差异(通过f-散度正则化),从而推导出一种基于TD误差的占用率比率,用于指导经验回放的优先级选择。

技术框架:ROER的整体框架包括以下几个主要步骤:1) 使用强化学习算法(如SAC)与环境交互,收集经验数据;2) 计算每个经验样本的TD误差;3) 使用TD误差计算占用率比率,作为经验的优先级权重;4) 将经验及其优先级权重存储在回放缓冲区中;5) 从回放缓冲区中采样经验,用于更新策略网络和价值网络。该框架的关键在于TD误差到优先级权重的转换,以及正则化项的选择。

关键创新:ROER最重要的技术创新点在于其对TD误差的理论解释,以及基于正则化最优控制的经验优先级推导。与传统的PER方法不同,ROER并非简单地将TD误差作为优先级,而是将其视为最优占用率分布的近似。通过引入正则化项,ROER能够更好地平衡探索和利用,避免过度依赖高TD误差的经验,从而提高学习的稳定性和效率。

关键设计:ROER的关键设计包括:1) 使用KL散度作为f-散度正则化项,推导出具体的优先级计算公式;2) 将计算得到的优先级权重用于经验回放的采样过程,确保高优先级的经验能够被更频繁地采样;3) 将ROER与SAC算法相结合,在连续控制任务中进行验证。此外,论文还探索了ROER在离线到在线微调中的应用,通过预训练提高算法在复杂环境中的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ROER在MuJoCo和DM Control连续控制任务中,在11个任务中的6个上超越了基线方法,并在其余任务中取得了可比的结果。在更具挑战性的Antmaze环境中,ROER通过预训练实现了显著的性能提升,而基线方法则表现不佳,证明了ROER在复杂环境和离线到在线学习中的有效性。

🎯 应用场景

ROER可应用于各种需要高效样本利用率的强化学习场景,例如机器人控制、自动驾驶、游戏AI等。尤其在数据获取成本高昂或环境探索困难的情况下,ROER能够通过优化经验回放,加速策略学习,提高算法的实用性。此外,ROER在离线到在线微调方面的潜力,使其能够应用于预训练模型在特定任务上的快速适应。

📄 摘要(原文)

Experience replay serves as a key component in the success of online reinforcement learning (RL). Prioritized experience replay (PER) reweights experiences by the temporal difference (TD) error empirically enhancing the performance. However, few works have explored the motivation of using TD error. In this work, we provide an alternative perspective on TD-error-based reweighting. We show the connections between the experience prioritization and occupancy optimization. By using a regularized RL objective with $f-$divergence regularizer and employing its dual form, we show that an optimal solution to the objective is obtained by shifting the distribution of off-policy data in the replay buffer towards the on-policy optimal distribution using TD-error-based occupancy ratios. Our derivation results in a new pipeline of TD error prioritization. We specifically explore the KL divergence as the regularizer and obtain a new form of prioritization scheme, the regularized optimal experience replay (ROER). We evaluate the proposed prioritization scheme with the Soft Actor-Critic (SAC) algorithm in continuous control MuJoCo and DM Control benchmark tasks where our proposed scheme outperforms baselines in 6 out of 11 tasks while the results of the rest match with or do not deviate far from the baselines. Further, using pretraining, ROER achieves noticeable improvement on difficult Antmaze environment where baselines fail, showing applicability to offline-to-online fine-tuning. Code is available at \url{https://github.com/XavierChanglingLi/Regularized-Optimal-Experience-Replay}.