Orchestrating Tokens and Sequences: Dynamic Hybrid Policy Optimization for RLVR

📄 arXiv: 2601.05607v1 📥 PDF

作者: Zijun Min, Bingshuai Liu, Ante Wang, Long Zhang, Anxiang Zeng, Haibo Zhang, Jinsong Su

分类: cs.LG

发布日期: 2026-01-09


💡 一句话要点

提出动态混合策略优化DHPO,提升RLVR在数学推理任务中的性能与稳定性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 可验证奖励 策略优化 数学推理 大型语言模型

📋 核心要点

  1. 现有RLVR算法在token级别和序列级别优化之间存在trade-off,前者方差大,后者信用分配粗糙。
  2. DHPO通过动态混合token级别和序列级别的置信度比例,并结合分支特定裁剪策略,实现更稳定和有效的策略优化。
  3. 实验表明,DHPO在多个数学推理基准测试中,显著优于GRPO和GSPO,提升了模型性能。

📝 摘要(中文)

基于可验证奖励的强化学习(RLVR)为优化大型语言模型在推理任务中的表现提供了一个有前景的框架。然而,现有的RLVR算法侧重于不同的粒度,各有优缺点。Group Relative Policy Optimization (GRPO) 使用token级别的置信度比例更新策略,保留了细粒度的信用分配,但通常存在高方差和不稳定性。相比之下,Group Sequence Policy Optimization (GSPO) 在响应中的所有token上应用单个序列级别的置信度比例,更好地匹配序列级别的奖励,但牺牲了token级别的信用分配。本文提出了动态混合策略优化(DHPO),通过一个裁剪的替代目标来桥接GRPO和GSPO。DHPO使用加权机制结合token级别和序列级别的置信度比例。我们探索了两种混合机制,包括平均混合和熵引导混合。为了进一步稳定训练,我们采用分支特定的裁剪策略,在混合之前将token级别和序列级别的比例约束在单独的信任区域内,防止任一分支中的异常值主导更新。在七个具有挑战性的数学推理基准上,对来自Qwen3系列的稠密模型和MoE模型的实验表明,DHPO始终优于GRPO和GSPO。

🔬 方法详解

问题定义:现有的基于可验证奖励的强化学习(RLVR)方法,如GRPO和GSPO,分别侧重于token级别和序列级别的策略优化。GRPO虽然能进行细粒度的信用分配,但容易出现高方差和训练不稳定;GSPO则牺牲了token级别的细粒度,可能导致信用分配不准确。因此,如何结合两者的优点,同时避免各自的缺点,是本文要解决的问题。

核心思路:DHPO的核心思路是将token级别和序列级别的置信度比例动态地混合起来,从而在细粒度信用分配和稳定性之间取得平衡。通过加权机制,DHPO可以根据具体情况调整两种比例的贡献,从而实现更有效的策略优化。此外,DHPO还引入了分支特定的裁剪策略,以防止任一分支中的异常值主导更新,进一步提高训练的稳定性。

技术框架:DHPO的整体框架包括以下几个主要步骤:1) 使用语言模型生成响应序列;2) 计算token级别和序列级别的置信度比例;3) 使用加权机制将两种比例混合;4) 使用裁剪的替代目标更新策略。其中,加权机制可以是简单的平均混合,也可以是基于熵的自适应混合。裁剪策略则分别对token级别和序列级别的比例进行约束,防止梯度爆炸或消失。

关键创新:DHPO的关键创新在于动态混合token级别和序列级别的置信度比例,以及分支特定的裁剪策略。这种混合机制允许模型根据具体情况自适应地调整两种比例的贡献,从而在细粒度信用分配和稳定性之间取得平衡。分支特定的裁剪策略则进一步提高了训练的稳定性,防止了异常值的影响。

关键设计:DHPO的关键设计包括:1) 两种混合机制:平均混合和熵引导混合。平均混合简单直接,而熵引导混合则可以根据token级别比例的不确定性自适应地调整权重。2) 分支特定的裁剪策略:分别对token级别和序列级别的比例进行裁剪,防止任一分支中的异常值主导更新。3) 损失函数:使用裁剪的替代目标函数,结合混合后的置信度比例,更新策略。

📊 实验亮点

实验结果表明,DHPO在七个数学推理基准测试中,始终优于GRPO和GSPO。例如,在某些基准测试中,DHPO的性能提升超过5%。此外,DHPO在稠密模型和MoE模型上都表现出良好的性能,表明其具有较强的泛化能力。这些结果验证了DHPO的有效性和优越性。

🎯 应用场景

DHPO可应用于各种需要进行复杂推理的自然语言处理任务,例如数学问题求解、代码生成、知识图谱推理等。通过优化大型语言模型在这些任务中的表现,DHPO可以提高AI系统的智能化水平,使其能够更好地理解和解决现实世界的问题。此外,DHPO的混合策略思想也可以推广到其他强化学习场景,例如机器人控制、游戏AI等。

📄 摘要(原文)

Reinforcement Learning with Verifiable Rewards (RLVR) offers a promising framework for optimizing large language models in reasoning tasks. However, existing RLVR algorithms focus on different granularities, and each has complementary strengths and limitations. Group Relative Policy Optimization (GRPO) updates the policy with token-level importance ratios, which preserves fine-grained credit assignment but often suffers from high variance and instability. In contrast, Group Sequence Policy Optimization (GSPO) applies single sequence-level importance ratios across all tokens in a response that better matches sequence-level rewards, but sacrifices token-wise credit assignment. In this paper, we propose Dynamic Hybrid Policy Optimization (DHPO) to bridge GRPO and GSPO within a single clipped surrogate objective. DHPO combines token-level and sequence-level importance ratios using weighting mechanisms. We explore two variants of the mixing mechanism, including an averaged mixing and an entropy-guided mixing. To further stabilize training, we employ a branch-specific clipping strategy that constrains token-level and sequence-level ratios within separate trust regions before mixing, preventing outliers in either branch from dominating the update. Across seven challenging mathematical reasoning benchmarks, experiments on both dense and MoE models from the Qwen3 series show that DHPO consistently outperforms GRPO and GSPO. We will release our code upon acceptance of this paper.