Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning
作者: Tenglong Liu, Yang Li, Yixing Lan, Hao Gao, Wei Pan, Xin Xu
分类: cs.LG, cs.AI, cs.RO
发布日期: 2024-05-30 (更新: 2024-07-15)
备注: ICML 2024, 19 pages
🔗 代码/项目: GITHUB
💡 一句话要点
提出自适应优势引导策略正则化(A2PR)方法,解决离线强化学习中的过保守问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 离线强化学习 策略正则化 分布外问题 优势函数 VAE
📋 核心要点
- 离线强化学习面临分布外(OOD)问题,现有策略正则化方法易导致不必要的保守性,限制策略提升。
- A2PR通过VAE增强行为策略,选择高优势动作引导策略学习,在保守性和策略改进间取得平衡。
- 在D4RL基准测试中,A2PR取得了state-of-the-art的性能,并在次优混合数据集上表现出优越性。
📝 摘要(中文)
在离线强化学习中,分布外(OOD)问题尤为突出。为了解决这个问题,现有的方法通常通过策略正则化来约束学习到的策略。然而,这些方法常常受到不必要的保守性的困扰,阻碍了策略的改进。这主要是由于不加区分地使用来自生成离线数据集的行为策略的所有动作作为约束。当数据集的质量欠佳时,这个问题变得尤为明显。因此,我们提出了自适应优势引导策略正则化(A2PR),从增强的行为策略结合VAE中获得高优势动作来引导学习到的策略。A2PR可以选择与数据集中存在的动作不同的高优势动作,同时有效地保持对OOD动作的保守性。这是通过利用VAE的能力来生成与数据点分布匹配的样本来实现的。我们从理论上证明了行为策略的改进是有保证的。此外,它有效地缓解了价值高估问题,并具有有界的性能差距。在D4RL基准上进行的一系列实验表明,A2PR表现出了最先进的性能。此外,在额外的次优混合数据集上的实验结果表明,A2PR表现出卓越的性能。
🔬 方法详解
问题定义:离线强化学习旨在利用静态数据集训练策略,避免与环境的直接交互。然而,由于策略可能采取数据集中未包含的动作,导致分布外(OOD)问题,进而产生价值高估和策略崩溃。现有策略正则化方法试图约束学习到的策略,使其接近行为策略,但往往过于保守,限制了策略的探索和改进,尤其是在次优数据集上。
核心思路:A2PR的核心思路是自适应地选择性地进行策略正则化,只约束那些可能导致OOD问题的不良动作,而允许策略探索更有利的动作。通过VAE学习数据集的分布,并结合优势函数,从增强的行为策略中选择高优势动作来引导策略学习。这样既能避免OOD问题,又能促进策略的改进。
技术框架:A2PR的整体框架包括以下几个主要模块:1) 行为策略增强模块:使用VAE学习离线数据集的分布,并生成新的样本,从而增强行为策略的覆盖范围。2) 优势函数估计模块:估计每个动作的优势函数,用于评估动作的优劣程度。3) 策略正则化模块:使用KL散度等方法,将学习到的策略约束在由高优势动作引导的范围内。4) 价值函数学习模块:学习价值函数,用于评估策略的性能,并指导策略的更新。
关键创新:A2PR的关键创新在于自适应地选择用于策略正则化的动作。与现有方法不同,A2PR不是简单地约束策略接近行为策略的所有动作,而是只约束那些低优势的动作,允许策略探索高优势的动作。这种自适应的策略正则化方法能够更好地平衡保守性和策略改进。
关键设计:A2PR的关键设计包括:1) 使用VAE进行行为策略增强,提高策略的覆盖范围。2) 使用优势函数来评估动作的优劣程度,从而选择用于策略正则化的动作。3) 使用KL散度作为策略正则化的损失函数,控制策略与高优势动作之间的距离。4) 理论证明了A2PR能够保证策略的改进,并缓解价值高估问题。
🖼️ 关键图片
📊 实验亮点
A2PR在D4RL基准测试中取得了state-of-the-art的性能,超越了现有的离线强化学习算法。在HalfCheetah-Medium-Replay数据集上,A2PR的平均得分超过了其他算法,例如BCQ、CQL等。此外,在额外的次优混合数据集上的实验结果表明,A2PR表现出卓越的性能,证明了其在处理低质量数据集方面的优势。
🎯 应用场景
A2PR可应用于各种需要离线强化学习的场景,例如机器人控制、自动驾驶、推荐系统和金融交易等。它尤其适用于数据集质量不高或探索不足的情况,能够有效地利用现有数据训练出高性能的策略,降低试错成本,加速智能系统的开发和部署。未来,A2PR可以进一步扩展到多智能体离线强化学习等更复杂的场景。
📄 摘要(原文)
In offline reinforcement learning, the challenge of out-of-distribution (OOD) is pronounced. To address this, existing methods often constrain the learned policy through policy regularization. However, these methods often suffer from the issue of unnecessary conservativeness, hampering policy improvement. This occurs due to the indiscriminate use of all actions from the behavior policy that generates the offline dataset as constraints. The problem becomes particularly noticeable when the quality of the dataset is suboptimal. Thus, we propose Adaptive Advantage-guided Policy Regularization (A2PR), obtaining high-advantage actions from an augmented behavior policy combined with VAE to guide the learned policy. A2PR can select high-advantage actions that differ from those present in the dataset, while still effectively maintaining conservatism from OOD actions. This is achieved by harnessing the VAE capacity to generate samples matching the distribution of the data points. We theoretically prove that the improvement of the behavior policy is guaranteed. Besides, it effectively mitigates value overestimation with a bounded performance gap. Empirically, we conduct a series of experiments on the D4RL benchmark, where A2PR demonstrates state-of-the-art performance. Furthermore, experimental results on additional suboptimal mixed datasets reveal that A2PR exhibits superior performance. Code is available at https://github.com/ltlhuuu/A2PR.