Behavior-Regularized Diffusion Policy Optimization for Offline Reinforcement Learning

📄 arXiv: 2502.04778v2 📥 PDF

作者: Chen-Xiao Gao, Chenyang Wu, Mingjun Cao, Chenjun Xiao, Yang Yu, Zongzhang Zhang

分类: cs.LG, cs.AI

发布日期: 2025-02-07 (更新: 2025-05-29)

备注: Accepted by ICML 2025


💡 一句话要点

提出BDPO,一种行为正则化的扩散策略优化离线强化学习方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 行为正则化 扩散模型 策略优化 Actor-Critic

📋 核心要点

  1. 现有行为正则化离线强化学习方法主要集中于高斯策略等显式参数化策略,难以扩展到扩散模型等更高级的策略。
  2. BDPO通过解析计算扩散轨迹上反向时间转移核的KL散度,实现对扩散策略的行为正则化,兼顾表达能力和鲁棒性。
  3. 实验表明,BDPO在合成2D任务和D4RL连续控制任务上表现出优越的性能,验证了其有效性。

📝 摘要(中文)

行为正则化通过约束策略接近行为策略,被广泛应用于离线强化学习(RL)中,以管理对未见动作的危险利用风险。然而,现有的行为正则化RL文献主要集中在显式的策略参数化上,例如高斯策略。因此,如何将此框架扩展到更高级的策略参数化(如扩散模型)仍不清楚。本文提出了BDPO,一个为基于扩散的策略量身定制的、基于原则的行为正则化RL框架,从而结合了扩散策略的表达能力和正则化提供的鲁棒性。该方法的关键在于将Kullback-Leibler (KL)正则化解析地计算为沿扩散轨迹的反向时间转移核中的累积差异。通过整合正则化,我们开发了一种有效的双时间尺度actor-critic RL算法,该算法在尊重行为约束的同时产生最优策略。在合成2D任务和D4RL基准中的连续控制任务上进行的综合评估验证了其有效性和卓越性能。

🔬 方法详解

问题定义:现有的行为正则化离线强化学习方法,如BCQ等,主要针对显式策略参数化(例如高斯策略)。然而,扩散模型作为一种隐式策略参数化方法,具有更强的表达能力,但如何将其与行为正则化框架结合是一个挑战。现有方法难以直接应用于扩散模型,无法有效约束策略行为,可能导致对未见动作的过度利用。

核心思路:BDPO的核心思路是将行为正则化应用于扩散策略,通过约束扩散过程中的反向转移核,使得学习到的策略在行为上接近离线数据集中的行为策略。具体而言,它将KL散度正则化项解析地计算为沿扩散轨迹的反向时间转移核中的累积差异。这种方法允许在扩散模型的框架内有效地进行行为正则化,从而结合了扩散策略的表达能力和行为正则化的鲁棒性。

技术框架:BDPO采用双时间尺度actor-critic框架。Actor(扩散策略)通过最小化带正则化的策略优化目标进行更新,该目标包含奖励最大化项和KL散度正则化项。Critic用于评估当前策略的价值,并为actor提供优化方向。算法交替更新actor和critic,最终得到一个既能最大化奖励又能保持与行为策略接近的策略。

关键创新:BDPO的关键创新在于将KL散度正则化项解析地计算为沿扩散轨迹的反向时间转移核中的累积差异。这种解析计算避免了对扩散过程的采样,提高了计算效率。此外,BDPO是第一个将行为正则化框架成功应用于扩散策略的离线强化学习方法。

关键设计:BDPO使用扩散模型作为策略,通过学习一个噪声预测器来生成动作。KL散度正则化项的计算依赖于对扩散过程的反向转移核的建模。算法使用双时间尺度更新,其中critic的更新频率高于actor,以保证critic的准确性。损失函数包含奖励最大化项和KL散度正则化项,正则化系数需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在D4RL基准测试中,BDPO在多个连续控制任务上取得了显著的性能提升,尤其是在medium-replay和medium-expert数据集上。与现有行为正则化方法(如BCQ)相比,BDPO在某些任务上取得了超过10%的性能提升,验证了其有效性和优越性。此外,在合成2D任务上的实验也表明,BDPO能够有效地约束策略行为,避免过度探索。

🎯 应用场景

BDPO可应用于需要安全探索和行为约束的离线强化学习场景,例如机器人控制、自动驾驶、医疗决策等。在这些场景中,从有限的离线数据中学习策略,同时避免探索未知的危险动作至关重要。BDPO通过行为正则化,可以有效地解决这个问题,提高策略的安全性与可靠性,具有广泛的应用前景。

📄 摘要(原文)

Behavior regularization, which constrains the policy to stay close to some behavior policy, is widely used in offline reinforcement learning (RL) to manage the risk of hazardous exploitation of unseen actions. Nevertheless, existing literature on behavior-regularized RL primarily focuses on explicit policy parameterizations, such as Gaussian policies. Consequently, it remains unclear how to extend this framework to more advanced policy parameterizations, such as diffusion models. In this paper, we introduce BDPO, a principled behavior-regularized RL framework tailored for diffusion-based policies, thereby combining the expressive power of diffusion policies and the robustness provided by regularization. The key ingredient of our method is to calculate the Kullback-Leibler (KL) regularization analytically as the accumulated discrepancies in reverse-time transition kernels along the diffusion trajectory. By integrating the regularization, we develop an efficient two-time-scale actor-critic RL algorithm that produces the optimal policy while respecting the behavior constraint. Comprehensive evaluations conducted on synthetic 2D tasks and continuous control tasks from the D4RL benchmark validate its effectiveness and superior performance.