Diffusion-DICE: In-Sample Diffusion Guidance for Offline Reinforcement Learning

📄 arXiv: 2407.20109v2 📥 PDF

作者: Liyuan Mao, Haoran Xu, Xianyuan Zhan, Weinan Zhang, Amy Zhang

分类: cs.LG, cs.AI

发布日期: 2024-07-29 (更新: 2024-10-31)

备注: NeurIPS 2024, first two authors contribute equally

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出Diffusion-DICE,利用扩散模型和DICE方法解决离线强化学习中的策略优化问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 扩散模型 分布校正估计 策略优化 样本内学习

📋 核心要点

  1. 现有基于扩散模型的离线强化学习方法易受误差累积影响,导致策略生成偏离最优。
  2. Diffusion-DICE利用DICE的分布转换特性,结合扩散模型,学习行为策略到最优策略的映射。
  3. 通过引导-选择范式,Diffusion-DICE仅使用样本内动作训练,显著降低误差利用,并在基准测试中表现出色。

📝 摘要(中文)

本文提出了一种名为Diffusion-DICE的新方法,用于离线强化学习。该方法基于分布校正估计(DICE)方法,将DICE视为从行为分布到最优策略分布的转换。Diffusion-DICE利用扩散模型直接执行这种转换。论文证明了最优策略的得分函数可以分解为两项:行为策略的得分函数和一个依赖于最优分布比率的引导项的梯度。第一项可以通过在数据集上训练的扩散模型获得,第二项则通过提出的样本内学习目标进行学习。由于最优策略分布中存在多模态,Diffusion-DICE的转换可能引导到局部最优模式。因此,该方法生成一些候选动作并从中仔细选择,以接近全局最优。与所有其他基于扩散的离线RL方法不同,Diffusion-DICE中的引导-选择范式仅使用样本内动作进行训练,并在价值函数中带来最小的误差利用。论文使用教学性的玩具案例展示了先前基于扩散的方法如何由于利用这些误差而未能生成最优动作,以及Diffusion-DICE如何成功避免这种情况。在基准数据集上进行了大量实验,证明了Diffusion-DICE的强大性能。

🔬 方法详解

问题定义:离线强化学习旨在利用静态数据集学习最优策略,而无需与环境交互。现有基于扩散模型的离线强化学习方法,容易受到数据集偏差和价值函数误差的影响,导致策略生成过程中出现误差累积,最终影响性能。这些方法通常依赖于数据集之外的动作,引入了外推误差,使得学习到的策略难以泛化到真实环境。

核心思路:Diffusion-DICE的核心思路是将DICE方法视为从行为策略分布到最优策略分布的转换。通过学习这种转换,可以直接将行为策略的样本映射到更优的策略。利用扩散模型强大的生成能力,可以有效地建模这种复杂的分布转换关系。此外,通过引导-选择范式,避免了使用数据集之外的动作,从而减少了外推误差。

技术框架:Diffusion-DICE的整体框架包含以下几个主要步骤:1) 使用离线数据集训练一个扩散模型,用于估计行为策略的得分函数。2) 利用DICE方法,将最优策略的得分函数分解为行为策略的得分函数和一个引导项的梯度。3) 通过样本内学习目标,学习这个引导项。4) 生成多个候选动作,并从中选择最优的动作。这个选择过程可以基于价值函数或者其他策略评估方法。

关键创新:Diffusion-DICE的关键创新在于其引导-选择范式,该范式仅使用样本内动作进行训练,从而避免了外推误差。与现有方法不同,Diffusion-DICE不依赖于数据集之外的动作,而是通过学习行为策略到最优策略的映射,直接生成最优动作。这种方法可以显著提高策略的泛化能力和鲁棒性。

关键设计:Diffusion-DICE的关键设计包括:1) 使用扩散模型估计行为策略的得分函数。扩散模型采用标准的去噪扩散概率模型(DDPM)结构,通过训练学习从噪声到数据的生成过程。2) 设计样本内学习目标,用于学习引导项。该目标旨在最小化引导后的策略与最优策略之间的差异。3) 采用引导-选择范式,生成多个候选动作,并使用价值函数或策略评估方法选择最优动作。候选动作的数量是一个重要的超参数,需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Diffusion-DICE在多个离线强化学习基准数据集上取得了显著的性能提升。在玩具案例中,Diffusion-DICE成功避免了现有方法由于误差利用而导致的次优解。在标准数据集上,Diffusion-DICE的性能优于其他基于扩散模型的离线强化学习方法,证明了其有效性和优越性。

🎯 应用场景

Diffusion-DICE在机器人控制、自动驾驶、游戏AI等领域具有广泛的应用前景。它可以利用历史数据学习最优策略,无需在线探索,降低了试错成本和风险。该方法尤其适用于那些难以进行在线交互或数据采集成本较高的场景,例如医疗诊断、金融交易等。

📄 摘要(原文)

One important property of DIstribution Correction Estimation (DICE) methods is that the solution is the optimal stationary distribution ratio between the optimized and data collection policy. In this work, we show that DICE-based methods can be viewed as a transformation from the behavior distribution to the optimal policy distribution. Based on this, we propose a novel approach, Diffusion-DICE, that directly performs this transformation using diffusion models. We find that the optimal policy's score function can be decomposed into two terms: the behavior policy's score function and the gradient of a guidance term which depends on the optimal distribution ratio. The first term can be obtained from a diffusion model trained on the dataset and we propose an in-sample learning objective to learn the second term. Due to the multi-modality contained in the optimal policy distribution, the transformation in Diffusion-DICE may guide towards those local-optimal modes. We thus generate a few candidate actions and carefully select from them to approach global-optimum. Different from all other diffusion-based offline RL methods, the guide-then-select paradigm in Diffusion-DICE only uses in-sample actions for training and brings minimal error exploitation in the value function. We use a didatic toycase example to show how previous diffusion-based methods fail to generate optimal actions due to leveraging these errors and how Diffusion-DICE successfully avoids that. We then conduct extensive experiments on benchmark datasets to show the strong performance of Diffusion-DICE. Project page at https://ryanxhr.github.io/Diffusion-DICE/.