Diffusion Actor-Critic: Formulating Constrained Policy Iteration as Diffusion Noise Regression for Offline Reinforcement Learning

📄 arXiv: 2405.20555v3 📥 PDF

作者: Linjiajie Fang, Ruoxue Liu, Jing Zhang, Wenjia Wang, Bing-Yi Jing

分类: cs.LG

发布日期: 2024-05-31 (更新: 2025-02-25)

🔗 代码/项目: GITHUB


💡 一句话要点

提出Diffusion Actor-Critic,通过扩散噪声回归解决离线强化学习中的策略约束问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 扩散模型 策略约束 Actor-Critic KL散度

📋 核心要点

  1. 离线强化学习面临分布外动作导致价值函数过高估计的问题,现有策略正则化方法难以有效利用扩散模型表示行为策略。
  2. 论文提出Diffusion Actor-Critic (DAC),将KL约束策略迭代转化为扩散噪声回归问题,直接用扩散模型表示目标策略。
  3. 实验表明,DAC在D4RL基准测试中表现出色,在多个环境中超越了现有最优方法,验证了扩散策略约束的有效性。

📝 摘要(中文)

在离线强化学习中,管理分布外(out-of-distribution)动作以防止价值函数过高估计至关重要。策略正则化方法通过约束目标策略使其接近行为策略来解决此问题。尽管一些方法建议将行为策略表示为富有表现力的扩散模型以提高性能,但如何在使用扩散模型作为行为采样器的情况下正则化目标策略仍不清楚。本文提出了Diffusion Actor-Critic (DAC),它将Kullback-Leibler (KL)约束策略迭代公式化为扩散噪声回归问题,从而可以直接将目标策略表示为扩散模型。我们的方法遵循actor-critic学习范式,交替训练扩散模型的目标策略和critic网络。actor训练损失包括来自Q梯度的软Q引导项。软Q引导基于KL约束策略迭代的理论解,可防止学习的策略采取分布外动作。我们证明了这种基于扩散的策略约束,以及Q集成下限置信度作为价值目标的耦合,不仅保留了目标策略的多模态性,而且有助于DAC的稳定收敛和强大性能。我们的方法在D4RL基准上进行了评估,并在几乎所有环境中都优于最先进的方法。代码可在https://github.com/Fang-Lin93/DAC获得。

🔬 方法详解

问题定义:离线强化学习中,由于数据集的静态性,智能体无法与环境交互探索,导致学习到的策略容易做出分布外的动作,从而造成价值函数的过高估计。现有的策略正则化方法试图约束学习到的策略接近行为策略,但当行为策略用复杂的扩散模型表示时,如何有效进行策略约束仍然是一个挑战。

核心思路:论文的核心思路是将KL约束的策略迭代过程转化为一个扩散噪声回归问题。通过这种转化,目标策略可以直接用扩散模型来表示,从而能够更好地利用扩散模型的表达能力。同时,通过软Q引导,可以有效地约束目标策略,避免其做出分布外的动作。

技术框架:DAC采用Actor-Critic框架。Actor是一个扩散模型,负责生成策略;Critic是一个Q网络,负责评估策略的价值。训练过程交替进行:首先,固定Critic网络,训练Actor,使其生成的策略能够最大化Q值,并同时受到KL散度的约束,使其接近行为策略。然后,固定Actor,训练Critic网络,使其能够准确地评估当前策略的价值。

关键创新:论文的关键创新在于将KL约束的策略迭代过程转化为扩散噪声回归问题,从而可以直接使用扩散模型来表示目标策略。这种方法能够更好地利用扩散模型的表达能力,同时通过软Q引导,有效地约束策略,避免其做出分布外的动作。此外,使用Q集成下限置信度作为价值目标,进一步提高了算法的稳定性和性能。

关键设计:Actor使用扩散模型,通过预测噪声来生成动作。Critic使用Q-ensemble,通过多个Q网络的集成来提高评估的准确性,并使用下限置信度来降低过估计的风险。Actor的损失函数包括一个Q引导项和一个KL散度约束项。Q引导项鼓励Actor生成能够最大化Q值的动作,KL散度约束项则限制Actor生成的策略接近行为策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DAC在D4RL基准测试中取得了显著的成果,在多个环境中超越了现有最优方法。例如,在某些环境中,DAC的性能提升超过了10%。实验结果表明,DAC能够有效地利用离线数据,学习到高性能的策略,并且具有良好的稳定性和泛化能力。

🎯 应用场景

该研究成果可应用于各种离线强化学习场景,例如医疗诊断、自动驾驶、推荐系统等。在这些场景中,通常难以或无法进行在线交互,只能依赖于已有的离线数据集进行学习。DAC能够有效地利用这些离线数据,学习到高性能的策略,从而实现更好的决策。

📄 摘要(原文)

In offline reinforcement learning, it is necessary to manage out-of-distribution actions to prevent overestimation of value functions. One class of methods, the policy-regularized method, addresses this problem by constraining the target policy to stay close to the behavior policy. Although several approaches suggest representing the behavior policy as an expressive diffusion model to boost performance, it remains unclear how to regularize the target policy given a diffusion-modeled behavior sampler. In this paper, we propose Diffusion Actor-Critic (DAC) that formulates the Kullback-Leibler (KL) constraint policy iteration as a diffusion noise regression problem, enabling direct representation of target policies as diffusion models. Our approach follows the actor-critic learning paradigm in which we alternatively train a diffusion-modeled target policy and a critic network. The actor training loss includes a soft Q-guidance term from the Q-gradient. The soft Q-guidance is based on the theoretical solution of the KL constraint policy iteration, which prevents the learned policy from taking out-of-distribution actions. We demonstrate that such diffusion-based policy constraint, along with the coupling of the lower confidence bound of the Q-ensemble as value targets, not only preserves the multi-modality of target policies, but also contributes to stable convergence and strong performance in DAC. Our approach is evaluated on D4RL benchmarks and outperforms the state-of-the-art in nearly all environments. Code is available at https://github.com/Fang-Lin93/DAC.