Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization

📄 arXiv: 2409.01427v6 📥 PDF

作者: Tianci Gao, Konstantin A. Neusypin, Dmitry D. Dmitriev, Bo Yang, Shengren Rao

分类: cs.LG, cs.RO

发布日期: 2024-09-02 (更新: 2025-12-14)


💡 一句话要点

提出PPO-DAP,通过扩散模型提升PPO在连续控制任务中的样本效率和探索能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 近端策略优化 扩散模型 连续控制 样本效率 探索 动作先验

📋 核心要点

  1. PPO在连续控制中应用广泛,但样本效率低,尤其是在交互成本高和动作空间大的任务中。
  2. PPO-DAP利用离线预训练的扩散模型作为动作先验,并在线进行参数高效的微调,引导探索。
  3. 实验表明,PPO-DAP在MuJoCo任务中提高了早期学习效率,并在多数任务中达到或超过了现有最佳在线算法的性能。

📝 摘要(中文)

近端策略优化(PPO)因其鲁棒性和训练稳定性而被广泛应用于连续控制,但在交互成本高昂和动作空间高维的任务中,其样本效率仍然较低。本文提出了PPO-DAP(具有扩散动作先验的PPO),这是一个严格的在线框架,它在不修改PPO目标的情况下提高了探索质量和学习效率。PPO-DAP遵循一个两阶段协议。离线阶段,我们在已记录的轨迹上预训练一个条件扩散动作先验,以覆盖行为策略支持的动作分布。在线阶段,PPO仅使用新收集的在线rollout更新actor-critic,同时通过参数高效的微调(Adapter/LoRA)在小参数子集上,使扩散先验适应在线状态分布。对于每个在线状态,先验生成多个动作提议,并使用基于critic的能量重加权和去噪梯度引导将它们集中到高价值区域。这些提议仅通过低权重的模仿损失和可选的软KL正则化器影响actor;重要的是,PPO梯度永远不会通过离线日志或纯粹的合成轨迹反向传播。我们从对偶近端角度进一步分析了该方法,并推导出一个单步性能下界。在100万环境步的统一在线预算下,PPO-DAP在八个MuJoCo连续控制任务中始终提高了早期学习效率(前40个epoch的学习曲线下面积,ALC@40),并在6/8的任务中匹配或超过了最强的在线基线,且开销适中(相对于PPO,壁钟时间为1.18+/-0.04倍,峰值GPU内存为1.05+/-0.02倍)。

🔬 方法详解

问题定义:PPO在连续控制任务中,尤其是在高维动作空间和交互成本高的环境中,存在样本效率低下的问题。现有的PPO算法需要大量的环境交互才能学习到有效的策略,这限制了其在实际场景中的应用。

核心思路:PPO-DAP的核心思路是利用离线数据预训练一个条件扩散模型作为动作先验,然后在PPO的在线学习过程中,通过参数高效的微调(Adapter/LoRA)将该先验知识迁移到当前策略的状态分布上。通过扩散模型生成动作提议,并结合critic的评估,引导策略探索更有价值的区域,从而提高样本效率。

技术框架:PPO-DAP包含两个主要阶段:离线预训练阶段和在线学习阶段。在离线阶段,使用历史轨迹数据训练一个条件扩散模型,该模型以状态为条件,生成动作分布。在线阶段,PPO算法与环境交互,收集新的数据,并使用这些数据更新actor-critic网络。同时,使用参数高效的微调方法(如Adapter或LoRA)调整扩散模型,使其适应当前策略的状态分布。扩散模型生成的动作提议通过模仿损失和KL散度正则化影响actor的更新。

关键创新:PPO-DAP的关键创新在于将离线预训练的扩散模型与在线PPO算法相结合,利用扩散模型生成高质量的动作提议,引导策略进行更有效的探索。此外,通过参数高效的微调方法,避免了对整个扩散模型进行更新,降低了计算成本。PPO-DAP避免了通过离线数据反向传播梯度,保证了算法的on-policy特性。

关键设计:PPO-DAP的关键设计包括:1) 使用条件扩散模型作为动作先验,该模型以状态为条件,生成动作分布;2) 使用critic网络对扩散模型生成的动作提议进行评估,并根据评估结果对动作进行重加权,引导探索;3) 使用参数高效的微调方法(Adapter/LoRA)调整扩散模型,使其适应当前策略的状态分布;4) 使用模仿损失和KL散度正则化将扩散模型生成的动作提议融入到PPO的策略更新中。

📊 实验亮点

PPO-DAP在八个MuJoCo连续控制任务中,相较于PPO,显著提高了早期学习效率(ALC@40)。在6/8的任务中,PPO-DAP的最终性能与最强的在线基线算法持平或更高。同时,PPO-DAP的计算开销适中,壁钟时间仅增加18%,GPU内存占用仅增加5%。这些结果表明,PPO-DAP在提高样本效率和探索能力的同时,保持了良好的计算效率。

🎯 应用场景

PPO-DAP适用于需要高样本效率的连续控制任务,例如机器人控制、自动驾驶、资源管理等。该方法可以利用离线数据进行预训练,减少在线交互的需求,从而降低学习成本,加速策略学习。此外,PPO-DAP的探索能力提升也有助于解决稀疏奖励问题,使其在更复杂的环境中也能有效应用。

📄 摘要(原文)

Proximal Policy Optimization (PPO) is widely used in continuous control due to its robustness and stable training, yet it remains sample-inefficient in tasks with expensive interactions and high-dimensional action spaces. This paper proposes PPO-DAP (PPO with Diffusion Action Prior), a strictly on-policy framework that improves exploration quality and learning efficiency without modifying the PPO objective. PPO-DAP follows a two-stage protocol. Offline, we pretrain a conditional diffusion action prior on logged trajectories to cover the action distribution supported by the behavior policy. Online, PPO updates the actor-critic only using newly collected on-policy rollouts, while the diffusion prior is adapted around the on-policy state distribution via parameter-efficient tuning (Adapter/LoRA) over a small parameter subset. For each on-policy state, the prior generates multiple action proposals and concentrates them toward high-value regions using critic-based energy reweighting and in-denoising gradient guidance. These proposals affect the actor only through a low-weight imitation loss and an optional soft KL regularizer to the prior; importantly, PPO gradients are never backpropagated through offline logs or purely synthetic trajectories. We further analyze the method from a dual-proximal perspective and derive a one-step performance lower bound. Across eight MuJoCo continuous-control tasks under a unified online budget of 1.0M environment steps, PPO-DAP consistently improves early learning efficiency (area under the learning curve over the first 40 epochs, ALC@40) and matches or exceeds the strongest on-policy baselines in final return on 6/8 tasks, with modest overhead (1.18+/-0.04x wall-clock time and 1.05+/-0.02x peak GPU memory relative to PPO).