Guidance Contrastive Token Credit Assignment for Discrete Policy Optimization
作者: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Yuta Kyuragi, Aditya Grover
分类: cs.CV
发布日期: 2026-05-28 (更新: 2026-05-29)
备注: 21 pages, 11 figures
💡 一句话要点
提出 Guidance Contrastive Policy Optimization (GCPO) 以实现离散策略优化中的 Token 级别信用分配
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 离散策略优化 强化学习 信用分配 对比学习 文本到图像生成
📋 核心要点
- 现有基于群体优势的强化学习方法在token信用分配上存在不足,无法区分不同token的贡献。
- GCPO通过对比正负提示下的模型预测,为每个token分配与其贡献成比例的优势,实现细粒度信用分配。
- 实验表明,GCPO在文本到图像生成和思维链推理任务中,显著优于现有基线方法,提升了性能。
📝 摘要(中文)
基于群体优势的强化学习方法,如GRPO和DAPO,在数学推理和文本到图像生成等领域表现出色。然而,它们依赖于样本级别的奖励,这存在一个关键限制,即在所有token上进行统一的信用分配,无法捕捉细粒度的token级别贡献。为了解决这个问题,我们提出了 Guidance Contrastive Policy Optimization (GCPO),一种新颖的算法,通过对比正向和负向提示下的模型预测,实现每个token的信用分配。GCPO不是统一广播样本级别的优势,而是分配与这些对比预测之间的差异成比例的token级别优势,从而提供更精确和信息丰富的学习信号。实验结果表明,GCPO强调语义相关的区域,例如在文本到图像生成中与文本提示对齐的视觉区域,以及在思维链任务中推理轨迹中的关键关键词。通过广泛的实验,GCPO在文本到图像生成和思维链推理基准测试中始终优于GRPO和DAPO基线,证明了其作为离散策略学习通用且可扩展的优化策略的有效性。
🔬 方法详解
问题定义:现有基于群体优势的强化学习方法,如GRPO和DAPO,在离散策略优化中面临着token级别信用分配的难题。它们通常使用样本级别的奖励信号,并将其均匀地分配给所有token,忽略了不同token对最终结果的不同贡献。这种均匀分配的方式导致学习效率低下,无法有效地利用训练数据。
核心思路:GCPO的核心思路是通过对比正向和负向提示下的模型预测,来估计每个token的贡献。具体来说,对于每个token,GCPO计算在正向提示下和负向提示下模型预测的差异,并将这个差异作为该token的优势。这种对比学习的方式能够更准确地反映每个token对最终结果的影响,从而实现更有效的信用分配。
技术框架:GCPO的整体框架包括以下几个主要步骤:1) 使用正向和负向提示生成模型预测;2) 计算正向和负向预测之间的差异,作为token级别的优势;3) 使用计算得到的token级别优势来更新策略网络。该框架的关键在于对比学习机制,它能够有效地提取token级别的贡献信息。
关键创新:GCPO最重要的创新在于其token级别的信用分配机制。与传统的样本级别信用分配方法不同,GCPO能够根据每个token的实际贡献来分配奖励,从而实现更精细化的学习。这种精细化的学习方式能够显著提高学习效率,并改善最终的性能。
关键设计:GCPO的关键设计包括:1) 如何选择正向和负向提示;2) 如何计算正向和负向预测之间的差异;3) 如何将token级别的优势整合到策略更新中。论文中使用了具体的公式和算法来描述这些设计细节,例如,可以使用余弦相似度来衡量正向和负向预测之间的差异,并使用Proximal Policy Optimization (PPO)算法来更新策略网络。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GCPO在文本到图像生成和思维链推理任务中,显著优于GRPO和DAPO等基线方法。例如,在文本到图像生成任务中,GCPO能够生成更符合文本描述的图像,并且能够更好地捕捉图像中的细节信息。在思维链推理任务中,GCPO能够更准确地推理出答案,并且能够更好地理解推理过程中的关键步骤。
🎯 应用场景
GCPO具有广泛的应用前景,可以应用于各种需要离散策略优化的任务中,例如文本生成、图像生成、机器人控制和游戏AI等。尤其是在需要细粒度控制和理解的任务中,GCPO的token级别信用分配机制能够发挥更大的作用。未来,GCPO可以进一步扩展到其他领域,例如自然语言处理和计算机视觉,为这些领域带来新的突破。
📄 摘要(原文)
Group-advantage-based reinforcement learning methods, such as GRPO and DAPO, have demonstrated strong performance across diverse domains, including mathematical reasoning and text-to-image generation. However, their reliance on sample-level rewards introduces a key limitation as uniform credit assignment across all tokens fails to capture fine-grained, token-level contributions. To address this issue, we propose Guidance Contrastive Policy Optimization (GCPO), a novel algorithm that enables per-token credit assignment by contrasting model predictions under positive and negative prompts. Rather than uniformly broadcasting sample-level advantages, GCPO assigns token-level advantages proportional to the difference between these contrastive predictions, allowing more precise and informative learning signals. Empirically, we find that GCPO emphasizes semantically relevant regions such as visual areas aligned with textual prompts in text-to-image generation, and critical keywords within reasoning traces for chain-of-thought tasks. Through extensive experiments, GCPO consistently outperforms GRPO and DAPO baselines on both text-to-image generation and chain-of-thought reasoning benchmarks, demonstrating its effectiveness as a general and scalable optimization strategy for discrete policy learning.