Dichotomous Diffusion Policy Optimization
作者: Ruiming Liang, Yinan Zheng, Kexin Zheng, Tianyi Tan, Jianxiong Li, Liyuan Mao, Zhihao Wang, Guang Chen, Hangjun Ye, Jingjing Liu, Jinqiao Wang, Xianyuan Zhan
分类: cs.LG, cs.RO
发布日期: 2025-12-31 (更新: 2026-02-01)
💡 一句话要点
提出DIPOLE:一种用于稳定和可控扩散策略优化的强化学习算法。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 强化学习 策略优化 二分策略 离线强化学习 自动驾驶 视觉-语言-动作模型
📋 核心要点
- 现有基于扩散模型的强化学习方法,在训练大型策略时面临训练不稳定或计算量大的问题。
- DIPOLE通过将策略分解为最大化和最小化奖励的二分策略,实现稳定且可控的策略优化。
- 实验表明,DIPOLE在离线和在线强化学习任务中表现出色,并成功应用于自动驾驶。
📝 摘要(中文)
基于扩散的策略因其卓越的表达能力和推理过程中的可控生成,在解决各种决策任务中越来越受欢迎。然而,使用强化学习(RL)有效地训练大型扩散策略仍然具有挑战性。现有方法要么因直接最大化价值目标而导致训练不稳定,要么因依赖粗糙的高斯似然近似而面临计算问题,这需要大量足够小的去噪步骤。本文提出DIPOLE(Dichotomous diffusion Policy improvement),一种新颖的RL算法,旨在实现稳定和可控的扩散策略优化。我们首先回顾RL中KL正则化目标,它为扩散策略提取提供了一个理想的加权回归目标,但通常难以平衡贪婪性和稳定性。然后,我们制定了一种贪婪化的策略正则化方案,该方案自然地将最优策略分解为一对稳定学习的二分策略:一个旨在最大化奖励,另一个侧重于最小化奖励。在这种设计下,可以通过在线性组合二分策略的分数来生成优化的动作,从而灵活地控制贪婪程度。在ExORL和OGBench上的离线和离线到在线RL设置中的评估证明了我们方法的有效性。我们还使用DIPOLE训练了一个大型视觉-语言-动作(VLA)模型,用于端到端自动驾驶(AD),并在大规模真实AD基准NAVSIM上对其进行评估,突出了其在复杂真实应用中的潜力。
🔬 方法详解
问题定义:现有基于扩散模型的强化学习方法,在训练大型策略时面临两个主要问题。一是直接最大化价值目标导致训练不稳定;二是依赖高斯似然近似,需要大量计算资源和小的去噪步长。这些问题限制了扩散模型在复杂强化学习任务中的应用。
核心思路:DIPOLE的核心思路是将策略学习分解为两个互补的部分:一个策略专注于最大化奖励(贪婪策略),另一个策略专注于最小化奖励(探索策略)。通过这种二分策略的设计,可以更稳定地学习每个策略,并通过线性组合控制最终策略的贪婪程度。
技术框架:DIPOLE算法主要包含以下几个阶段:1) 使用KL正则化的目标函数进行策略提取,鼓励策略接近行为克隆;2) 引入贪婪化策略正则化方案,将策略分解为最大化奖励和最小化奖励的二分策略;3) 在推理阶段,通过线性组合两个策略的分数来生成动作,实现对贪婪程度的灵活控制。
关键创新:DIPOLE的关键创新在于其二分策略的设计,它将策略学习分解为两个更易于优化的子问题。这种分解不仅提高了训练的稳定性,还允许对策略的探索-利用平衡进行更精细的控制。与现有方法依赖单一策略或复杂的高斯近似不同,DIPOLE提供了一种更简洁、更有效的方法。
关键设计:DIPOLE的关键设计包括:1) 使用KL散度作为正则化项,鼓励学习到的策略接近行为克隆,提高训练稳定性;2) 引入可调节的参数来控制最大化和最小化奖励策略的组合权重,从而实现对贪婪程度的灵活控制;3) 损失函数的设计,确保两个二分策略能够有效地学习到最大化和最小化奖励的行为。
🖼️ 关键图片
📊 实验亮点
DIPOLE在ExORL和OGBench等离线强化学习基准测试中表现出色,证明了其在离线数据上学习有效策略的能力。此外,DIPOLE还成功应用于大规模真实自动驾驶基准NAVSIM,表明其在复杂真实世界场景中的潜力。实验结果表明,DIPOLE能够有效地训练大型视觉-语言-动作模型,并实现端到端的自主驾驶。
🎯 应用场景
DIPOLE具有广泛的应用前景,尤其是在需要稳定性和可控性的复杂决策任务中。例如,它可以应用于自动驾驶、机器人控制、游戏AI等领域。通过控制策略的贪婪程度,可以使智能体在探索新行为和利用已知知识之间取得更好的平衡,从而提高任务完成的效率和安全性。此外,DIPOLE还可以用于训练大型视觉-语言-动作模型,实现端到端的自主决策。
📄 摘要(原文)
Diffusion-based policies have gained growing popularity in solving a wide range of decision-making tasks due to their superior expressiveness and controllable generation during inference. However, effectively training large diffusion policies using reinforcement learning (RL) remains challenging. Existing methods either suffer from unstable training due to directly maximizing value objectives, or face computational issues due to relying on crude Gaussian likelihood approximation, which requires a large amount of sufficiently small denoising steps. In this work, we propose DIPOLE (Dichotomous diffusion Policy improvement), a novel RL algorithm designed for stable and controllable diffusion policy optimization. We begin by revisiting the KL-regularized objective in RL, which offers a desirable weighted regression objective for diffusion policy extraction, but often struggles to balance greediness and stability. We then formulate a greedified policy regularization scheme, which naturally enables decomposing the optimal policy into a pair of stably learned dichotomous policies: one aims at reward maximization, and the other focuses on reward minimization. Under such a design, optimized actions can be generated by linearly combining the scores of dichotomous policies during inference, thereby enabling flexible control over the level of greediness.Evaluations in offline and offline-to-online RL settings on ExORL and OGBench demonstrate the effectiveness of our approach. We also use DIPOLE to train a large vision-language-action (VLA) model for end-to-end autonomous driving (AD) and evaluate it on the large-scale real-world AD benchmark NAVSIM, highlighting its potential for complex real-world applications.