Sample-Efficient Diffusion-based Reinforcement Learning with Critic Guidance
作者: Shutong Ding, Zejia Zhong, Zhongyi Wang, Ke Hu, Bikang Pan, Jingya Wang, Ye Shi
分类: cs.RO, cs.LG
发布日期: 2026-05-28
备注: accepted by ICML2026
💡 一句话要点
提出CGPO:一种基于Critic引导的扩散强化学习方法,提升样本效率。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 强化学习 策略优化 Critic引导 样本效率
📋 核心要点
- 扩散策略强化学习面临探索与利用的难题,采样方法探索性强但利用Q值信息不足,梯度方法则易陷入单峰策略。
- CGPO通过Critic引导扩散策略的去噪过程,将动作生成导向高价值区域,平衡探索与利用,提升策略优化效率。
- CGPO在MuJoCo和Franka机器人手臂抓取任务上验证了有效性,相较现有方法取得了显著的性能提升。
📝 摘要(中文)
本文提出了一种基于Critic引导的扩散策略优化方法(CGPO),旨在解决扩散策略强化学习中探索与利用的平衡问题。现有方法中,基于采样的策略优化具有较好的探索能力,但Q值信息利用不足,导致收敛缓慢;基于梯度的策略优化则充分利用Q函数梯度,但容易陷入单峰策略,缺乏多样性。CGPO通过将免训练引导技术融入扩散策略的去噪过程,有效平衡了探索与利用。具体而言,CGPO引导动作生成到Critic网络定义的高价值区域,并将引导后的动作作为回归目标。实验结果表明,CGPO在MuJoCo运动任务上取得了最先进的性能,并且首次成功将扩散策略应用于真实世界的Franka机器人手臂抓取任务。
🔬 方法详解
问题定义:现有的基于扩散模型的强化学习方法在探索和利用之间存在权衡问题。基于采样的策略优化方法,虽然具有良好的探索能力,特别是在训练初期,但对Q值信息的利用不足,导致策略收敛速度较慢。而基于梯度的策略优化方法,虽然能够充分利用Q函数的梯度信息,但容易陷入单峰策略,缺乏多样性。因此,如何有效地平衡探索和利用,提高扩散模型强化学习的样本效率是一个关键问题。
核心思路:CGPO的核心思路是通过Critic网络来引导扩散策略的优化过程。具体来说,利用Critic网络评估动作的价值,并将高价值区域的信息融入到扩散模型的去噪过程中,从而引导动作的生成。这种方式可以在不牺牲探索能力的前提下,提高策略对Q值信息的利用率,从而加速策略的收敛。
技术框架:CGPO的整体框架包括以下几个主要模块:1) 扩散策略模型:用于生成动作;2) Critic网络:用于评估动作的价值;3) 引导模块:将Critic网络的信息融入到扩散策略的去噪过程中;4) 策略优化模块:利用引导后的动作作为回归目标,更新扩散策略模型。整个流程如下:首先,扩散策略模型生成初始动作;然后,Critic网络评估这些动作的价值;接着,引导模块根据Critic网络的评估结果,调整扩散策略的去噪过程,生成引导后的动作;最后,策略优化模块利用引导后的动作作为回归目标,更新扩散策略模型。
关键创新:CGPO的关键创新在于将免训练的引导技术集成到扩散策略的去噪过程中。与传统的基于梯度的策略优化方法不同,CGPO不需要显式地计算Q函数的梯度,而是通过引导动作的生成,隐式地利用Q值信息。这种方式可以避免陷入单峰策略,同时保持策略的多样性。此外,CGPO是第一个成功将扩散策略应用于真实世界强化学习任务的方法。
关键设计:CGPO的关键设计包括:1) 引导强度的选择:需要仔细调整引导强度,以平衡探索和利用;2) Critic网络的训练:需要使用合适的算法训练Critic网络,以保证其能够准确地评估动作的价值;3) 扩散模型的架构选择:选择合适的扩散模型架构,以保证其能够生成高质量的动作。
🖼️ 关键图片
📊 实验亮点
CGPO在5个MuJoCo运动任务上取得了state-of-the-art的性能,显著优于现有的扩散策略强化学习方法。更重要的是,CGPO首次成功地将扩散策略应用于真实世界的Franka机器人手臂抓取任务,证明了其在实际应用中的潜力。实验结果表明,CGPO能够有效地平衡探索和利用,提高样本效率,并取得更好的最终性能。
🎯 应用场景
CGPO具有广泛的应用前景,可以应用于机器人控制、自动驾驶、游戏AI等领域。尤其是在需要高样本效率的真实世界强化学习任务中,CGPO的优势更加明显。例如,可以应用于机器人手臂的复杂操作、无人机的自主导航等任务。未来,CGPO有望成为一种通用的扩散策略强化学习方法,推动相关领域的发展。
📄 摘要(原文)
Recent advances in reinforcement learning (RL) have achieved great successes by leveraging the multimodality and exploration capability of diffusion policies. Among these approaches, one representative branch focuses on the sampling-based policy optimization. This design enables better exploration capability of the diffusion model, particularly at the beginning of training, but suffer from low exploitation in Q-value information, resulting in a slow policy convergence. Another branch pays attention to gradient-based policy optimization, which sufficiently exploits the gradient of the Q function yet tends to collapse into a unimodal policy with low diversity. To address this issue, we propose CGPO, \textbf{C}ritic-\textbf{G}uided diffusion \textbf{P}olicy \textbf{O}ptimization, which effectively balances exploration and exploitation with the training-free guidance technique integrated into the denoising process of diffusion policy. Concretely, CGPO steers action generation toward high-value regions defined by the critic network and uses the guided actions as regression objectives. In this manner, CGPO reduces the time required to obtain high-quality actions and improves final performance with better balance between the exploration-exploitation tradeoff. We validate the effectiveness of CGPO on 5 MuJoCo locomotion tasks, and CGPO achieves state-of-the-art performance compared with existing diffusion-based RL methods. Notably, CGPO is the first success to incorporate diffusion policy into real-world RL, with its superior performance on Franka robot arm grasping tasks. Our official page is released at https://dingsht.tech/cgpo-webpage.