Improving Deep Reinforcement Learning by Reducing the Chain Effect of Value and Policy Churn

📄 arXiv: 2409.04792v2 📥 PDF

作者: Hongyao Tang, Glen Berseth

分类: cs.LG, cs.AI

发布日期: 2024-09-07 (更新: 2024-12-11)

备注: Accepted to NeurIPS 2024. Project page: https://bluecontra.github.io/CHAIN


💡 一句话要点

提出CHAIN方法,通过减少价值和策略的链式漂移来提升深度强化学习性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 价值漂移 策略漂移 链式效应 算法稳定性

📋 核心要点

  1. 深度强化学习中,价值和策略的漂移会导致训练不稳定,现有方法未能充分解决这一问题。
  2. 论文提出CHAIN方法,通过近似和减少价值和策略更新中的链式漂移效应,稳定学习过程。
  3. 实验表明,CHAIN能有效减少漂移,并在多种在线、离线、基于价值和策略的RL任务中提升性能。

📝 摘要(中文)

深度神经网络为强化学习(RL)提供了强大的函数逼近器,以解决大规模决策问题。然而,这些逼近器也带来了挑战,因为RL训练本质上是非平稳的。RL中的一个挑战来源是输出预测可能发生漂移,导致每次批量更新后,未包含在批次中的状态发生不受控制的变化。虽然这种漂移现象存在于网络训练的每个步骤中,但漂移如何发生以及如何影响RL仍然未被充分研究。本文从广义策略迭代的角度,对函数逼近中的漂移进行了刻画,并发现了一种链式漂移效应,导致价值估计和策略改进中的漂移相互叠加,并使整个迭代过程中的学习动态产生偏差。此外,本文具体研究了由链式效应引起的学习问题,包括基于价值的方法中的贪婪动作偏差、近端策略优化中的信任区域违规以及Actor-Critic方法中的策略价值双重偏差。然后,本文提出了一种减少不同设置下链式效应的方法,称为漂移近似减少(CHAIN),它可以很容易地插入到大多数现有的DRL算法中。实验表明,该方法在减少漂移和提高在线和离线、基于价值和基于策略的RL设置以及缩放设置中的学习性能方面都是有效的。

🔬 方法详解

问题定义:深度强化学习算法在训练过程中,由于价值函数和策略的非平稳性,容易出现“漂移”(Churn)现象。这种漂移指的是,即使是很小的参数更新,也可能导致价值函数或策略在未采样到的状态上发生剧烈变化,从而影响学习的稳定性和收敛性。现有方法往往忽略了漂移的链式效应,即价值函数的漂移会影响策略的更新,反过来策略的漂移又会影响价值函数的学习,形成恶性循环。

核心思路:论文的核心思路是识别并减少价值和策略更新中的链式漂移效应。作者认为,通过限制每次更新对未采样状态的影响,可以有效缓解漂移问题,从而稳定学习过程。CHAIN方法旨在近似并减少这种链式效应,使其能够更容易地集成到现有的DRL算法中。

技术框架:CHAIN方法可以被视为一个通用的插件,可以集成到各种DRL算法中。其核心思想是在每次更新价值函数或策略时,估计本次更新可能引起的漂移量,并对更新进行调整,以减少漂移。具体来说,CHAIN方法包含以下几个步骤:1. 估计漂移量:使用某种方法(例如,基于梯度的近似)估计本次更新对未采样状态的影响。2. 减少漂移:根据估计的漂移量,对更新进行调整,例如,通过添加正则化项或裁剪更新幅度。3. 应用更新:将调整后的更新应用到价值函数或策略。

关键创新:论文的关键创新在于:1. 首次明确提出了深度强化学习中的链式漂移效应,并对其进行了深入分析。2. 提出了通用的CHAIN方法,可以有效减少链式漂移,并提高各种DRL算法的性能。3. CHAIN方法的设计简洁高效,易于集成到现有算法中。

关键设计:CHAIN方法的具体实现取决于所使用的DRL算法。例如,在基于价值的方法中,可以使用梯度裁剪来限制价值函数的更新幅度。在基于策略的方法中,可以使用KL散度正则化来限制策略的更新幅度。关键参数包括漂移估计方法、漂移减少的强度等。这些参数需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CHAIN方法在多种在线和离线RL任务中均能显著提升性能。例如,在Atari游戏中,将CHAIN集成到DQN算法中,可以获得更高的平均奖励。在连续控制任务中,CHAIN可以提高PPO算法的稳定性和收敛速度。此外,实验还验证了CHAIN方法在更大规模问题上的有效性。

🎯 应用场景

该研究成果可广泛应用于各种需要深度强化学习的场景,例如机器人控制、游戏AI、自动驾驶、推荐系统等。通过减少训练过程中的漂移,可以提高算法的稳定性和收敛速度,从而降低训练成本,并提升最终性能。该方法尤其适用于对稳定性要求较高的应用场景。

📄 摘要(原文)

Deep neural networks provide Reinforcement Learning (RL) powerful function approximators to address large-scale decision-making problems. However, these approximators introduce challenges due to the non-stationary nature of RL training. One source of the challenges in RL is that output predictions can churn, leading to uncontrolled changes after each batch update for states not included in the batch. Although such a churn phenomenon exists in each step of network training, how churn occurs and impacts RL remains under-explored. In this work, we start by characterizing churn in a view of Generalized Policy Iteration with function approximation, and we discover a chain effect of churn that leads to a cycle where the churns in value estimation and policy improvement compound and bias the learning dynamics throughout the iteration. Further, we concretize the study and focus on the learning issues caused by the chain effect in different settings, including greedy action deviation in value-based methods, trust region violation in proximal policy optimization, and dual bias of policy value in actor-critic methods. We then propose a method to reduce the chain effect across different settings, called Churn Approximated ReductIoN (CHAIN), which can be easily plugged into most existing DRL algorithms. Our experiments demonstrate the effectiveness of our method in both reducing churn and improving learning performance across online and offline, value-based and policy-based RL settings, as well as a scaling setting.