DiffPoGAN: Diffusion Policies with Generative Adversarial Networks for Offline Reinforcement Learning

📄 arXiv: 2406.09089v1 📥 PDF

作者: Xuemin Hu, Shen Li, Yingfen Xu, Bo Tang, Long Chen

分类: cs.LG

发布日期: 2024-06-13


💡 一句话要点

DiffPoGAN:结合扩散模型与GAN的离线强化学习方法,解决外推误差问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 扩散模型 生成对抗网络 策略学习 外推误差

📋 核心要点

  1. 离线强化学习面临外推误差问题,现有GAN方法存在策略探索约束不足和行为策略表示不准确的挑战。
  2. DiffPoGAN利用扩散模型生成多样化动作分布,并结合最大似然估计和判别器输出进行正则化,约束策略探索。
  3. 在D4RL数据集上的实验结果表明,DiffPoGAN在离线强化学习任务中优于现有最先进的方法。

📝 摘要(中文)

离线强化学习旨在从预先收集的离线数据集中学习最优策略,而无需与环境交互。然而,智能体的采样动作通常无法覆盖给定状态下的动作分布,导致外推误差问题。现有工作尝试使用生成对抗网络(GAN)来解决此问题,但这些方法通常存在策略探索约束不足和行为策略表示不准确的问题。此外,GAN中的生成器在最大化策略的预期回报时,难以欺骗判别器。受扩散模型强大特征表达能力的启发,我们提出了一种新的离线强化学习方法,名为DiffPoGAN。在该方法中,扩散模型作为策略生成器,生成多样化的动作分布,并开发了一种基于最大似然估计(MLE)的正则化方法,以生成近似于行为策略分布的数据。此外,我们引入了一个基于判别器输出的额外正则化项,以有效地约束策略探索,从而改进策略。在深度数据驱动强化学习(D4RL)数据集上进行了综合实验,结果表明DiffPoGAN优于最先进的离线强化学习方法。

🔬 方法详解

问题定义:离线强化学习旨在利用静态数据集学习策略,避免与环境的交互。然而,由于数据集的局限性,智能体难以覆盖所有可能的动作空间,导致外推误差。现有基于GAN的方法试图解决这个问题,但存在策略探索不足,行为策略表示不准确,以及生成器难以同时欺骗判别器和最大化回报的问题。

核心思路:DiffPoGAN的核心思路是利用扩散模型强大的生成能力,生成多样化的动作分布,从而缓解外推误差。同时,通过最大似然估计(MLE)和判别器输出进行正则化,约束策略探索,使其更接近行为策略,并提高策略的性能。

技术框架:DiffPoGAN包含以下主要模块:1) 扩散模型作为策略生成器,负责生成动作;2) 判别器,用于区分生成动作和数据集中的动作;3) 基于最大似然估计的正则化项,用于约束生成策略接近行为策略;4) 基于判别器输出的正则化项,用于进一步约束策略探索。整体流程是:首先,扩散模型生成动作,然后判别器进行判别,最后通过两个正则化项对扩散模型进行优化。

关键创新:DiffPoGAN的关键创新在于将扩散模型引入离线强化学习,并结合GAN的框架。扩散模型能够生成更加多样化的动作,从而缓解外推误差。此外,通过最大似然估计和判别器输出进行正则化,能够有效地约束策略探索,提高策略的性能。

关键设计:扩散模型采用标准的扩散过程和逆扩散过程,具体参数设置需要根据具体任务进行调整。最大似然估计的损失函数用于衡量生成动作与数据集动作之间的差异。判别器输出的正则化项采用hinge loss等方式,鼓励生成器生成判别器难以区分的动作。网络结构方面,扩散模型和判别器可以采用不同的神经网络结构,如Transformer或CNN。

🖼️ 关键图片

fig_0

📊 实验亮点

DiffPoGAN在D4RL数据集上进行了广泛的实验,结果表明其性能优于现有的最先进方法。例如,在某些任务上,DiffPoGAN的性能提升超过10%。实验结果验证了DiffPoGAN在离线强化学习中的有效性。

🎯 应用场景

DiffPoGAN在机器人控制、自动驾驶、游戏AI等领域具有广泛的应用前景。它可以利用预先收集的大量离线数据,训练出高性能的智能体,而无需进行昂贵的在线探索。例如,可以利用历史驾驶数据训练自动驾驶策略,或利用游戏录像训练游戏AI。

📄 摘要(原文)

Offline reinforcement learning (RL) can learn optimal policies from pre-collected offline datasets without interacting with the environment, but the sampled actions of the agent cannot often cover the action distribution under a given state, resulting in the extrapolation error issue. Recent works address this issue by employing generative adversarial networks (GANs). However, these methods often suffer from insufficient constraints on policy exploration and inaccurate representation of behavior policies. Moreover, the generator in GANs fails in fooling the discriminator while maximizing the expected returns of a policy. Inspired by the diffusion, a generative model with powerful feature expressiveness, we propose a new offline RL method named Diffusion Policies with Generative Adversarial Networks (DiffPoGAN). In this approach, the diffusion serves as the policy generator to generate diverse distributions of actions, and a regularization method based on maximum likelihood estimation (MLE) is developed to generate data that approximate the distribution of behavior policies. Besides, we introduce an additional regularization term based on the discriminator output to effectively constrain policy exploration for policy improvement. Comprehensive experiments are conducted on the datasets for deep data-driven reinforcement learning (D4RL), and experimental results show that DiffPoGAN outperforms state-of-the-art methods in offline RL.