DCPO: Dynamic Clipping Policy Optimization
作者: Shihui Yang, Chengfeng Dou, Peidong Guo, Kai Lu, Qiang Ju, Fei Deng, Rihui Xin
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-09-02 (更新: 2025-09-08)
💡 一句话要点
DCPO:动态裁剪策略优化,提升LLM在可验证奖励下的推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 策略优化 动态裁剪 奖励标准化
📋 核心要点
- 现有RLVR方法(如GRPO)存在梯度消失问题,限制了大型语言模型的推理能力。
- DCPO通过动态调整token裁剪边界和采用平滑优势标准化,更有效地利用生成数据。
- 实验表明,DCPO在多个基准测试中超越现有方法,显著提升了模型性能和训练效率。
📝 摘要(中文)
本文提出动态裁剪策略优化(DCPO),旨在提升大型语言模型在可验证奖励(RLVR)下的推理能力。现有方法如GRPO常面临梯度消失问题,主要由于token级别概率比率的固定裁剪边界和相同奖励的标准化,导致梯度更新效率低下和生成响应的利用不足。DCPO引入动态裁剪策略,基于token特定的先验概率自适应调整裁剪边界,增强token级别的探索。同时,采用平滑优势标准化技术,在累积训练步骤中标准化奖励,提高响应级别上生成响应的有效利用率。在四个基准测试和四个不同模型上,DCPO均取得了最先进的性能。例如,在Qwen2.5-Math-7B模型上,AIME24基准测试中,贪婪解码下Avg@1达到46.7,32次采样下Avg@32达到38.8,超越了DAPO、GRPO和GSPO。
🔬 方法详解
问题定义:现有基于可验证奖励的强化学习方法,如GRPO,在训练大型语言模型时,常常遇到梯度消失的问题。这主要是由于两个原因:一是token级别概率比率使用了固定的裁剪边界,限制了探索;二是将相同的奖励进行标准化,导致生成响应的利用率不足。这些问题最终导致模型训练效率低下,无法充分发挥生成数据的潜力。
核心思路:DCPO的核心思路是通过动态调整裁剪边界和平滑优势标准化来解决上述问题。动态裁剪边界允许模型在token级别进行更充分的探索,而平滑优势标准化则提高了生成响应的利用率。通过这种方式,DCPO旨在更有效地利用生成数据进行强化学习,从而提升大型语言模型的推理能力。
技术框架:DCPO的整体框架包括以下几个主要步骤:首先,使用大型语言模型生成响应。然后,根据可验证的奖励信号计算每个token的奖励。接下来,使用动态裁剪策略调整token级别概率比率的裁剪边界。同时,采用平滑优势标准化技术对奖励进行标准化。最后,使用策略梯度方法更新模型参数。
关键创新:DCPO的关键创新在于两个方面:一是动态裁剪策略,它基于token特定的先验概率自适应调整裁剪边界,从而增强token级别的探索。二是平滑优势标准化技术,它在累积训练步骤中标准化奖励,提高响应级别上生成响应的有效利用率。与现有方法相比,DCPO能够更有效地利用生成数据进行强化学习。
关键设计:动态裁剪策略的关键设计在于如何根据token的先验概率来调整裁剪边界。论文中具体如何计算和调整裁剪边界的细节未知。平滑优势标准化技术可能涉及使用滑动平均或其他平滑方法来计算优势函数的均值和方差,从而实现更稳定的标准化。
🖼️ 关键图片
📊 实验亮点
DCPO在AIME24基准测试中,Qwen2.5-Math-7B模型上,贪婪解码Avg@1达到46.7,32次采样Avg@32达到38.8,超越DAPO (36.7/31.6)、GRPO (36.7/32.1)和GSPO (40.0/34.9)。在AIME25基准测试中,Qwen2.5-14B模型上,DCPO达到(23.3/19.0),超越GRPO (13.3/10.5)、DAPO (20.0/15.3)和GSPO (16.7/9.9)。DCPO的非零优势比GRPO平均提升28%,训练效率是DAPO的两倍,token裁剪率比GRPO和DAPO显著降低一个数量级。
🎯 应用场景
DCPO可应用于各种需要大型语言模型进行推理的任务,例如数学问题求解、代码生成、知识问答等。该方法能够提升模型在这些任务上的准确性和效率,具有广泛的应用前景。此外,DCPO的动态裁剪策略和平滑优势标准化技术也可以推广到其他强化学习场景,具有一定的通用性。
📄 摘要(原文)
Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a promising framework for enhancing the reasoning capabilities of large language models. However, existing approaches such as GRPO often suffer from zero gradients. This problem arises primarily due to fixed clipping bounds for token-level probability ratios and the standardization of identical rewards, which can lead to ineffective gradient updates and underutilization of generated responses. In this work, we propose Dynamic Clipping Policy Optimization(DCPO), which introduces a dynamic clipping strategy that adaptively adjusts clipping bounds based on token-specific prior probabilities to enhance token-level exploration, and a smooth advantage standardization technique that standardizes rewards across cumulative training steps to improve the response-level effective utilization of generated responses. DCPO achieved state-of-the-art performance on four benchmarks based on four different models. In particular, DCPO achieved an Avg@1 of 46.7 under greedy decoding and an Avg@32 of 38.8 under 32 times sampling on the AIME24 benchmark, surpassing DAPO (36.7/31.6), GRPO (36.7/32.1) and GSPO (40.0/34.9) on the Qwen2.5-Math-7B model. On the AIME25 benchmark based on Qwen2.5-14B, DCPO achieves a performance of (23.3/19.0), surpassing GRPO (13.3/10.5), DAPO (20.0/15.3) and GSPO (16.7/9.9). Furthermore, DCPO achieved an average 28% improvement in the nonzero advantage over GRPO in four models, doubled the training efficiency over DAPO, and significantly reduced the token clipping ratio by an order of magnitude compared to both GRPO and DAPO, while achieving superior performance. These results highlight DCPO's effectiveness in leveraging generated data more efficiently for reinforcement learning in large language models.