Stabilizing Knowledge, Promoting Reasoning: Dual-Token Constraints for RLVR
作者: Jiakang Wang, Runze Liu, Fuzheng Zhang, Xiu Li, Guorui Zhou
分类: cs.CL
发布日期: 2025-07-21
🔗 代码/项目: GITHUB
💡 一句话要点
提出Archer,通过双Token约束强化学习提升LLM推理能力并稳定知识。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 推理能力 知识稳定 双Token约束
📋 核心要点
- 现有RLVR方法对所有token施加统一训练信号,忽略了知识token和推理token的不同作用,可能导致语义依赖性破坏。
- Archer提出一种熵感知的RLVR方法,通过双token约束,对知识token和推理token分别施加不同强度的约束。
- 实验表明,Archer在数学推理和代码生成任务上显著优于现有RLVR方法,达到或超过了同等规模模型的最优性能。
📝 摘要(中文)
基于可验证奖励的强化学习(RLVR)已成为提升大型语言模型(LLM)推理能力的有效后训练方法,主要通过塑造反思和规划等高阶行为。然而,以往的RLVR算法通常对所有token应用统一的训练信号,而忽略了低熵知识相关token和高熵推理相关token的不同作用。一些最近的方法试图通过梯度掩蔽或异步更新来分离这些token类型,但这些方法可能会破坏模型输出中的语义依赖性,并阻碍有效的学习。本文提出Archer,一种具有双token约束和同步更新的熵感知RLVR方法。具体来说,我们的方法对推理token应用较弱的KL正则化和较高的裁剪阈值,以鼓励探索,同时对知识token使用更强的约束,以保持事实知识。在几个数学推理和代码生成基准上的实验结果表明,我们的方法显著优于以前的RLVR方法,在同等规模的模型中达到或超过了最先进的性能。代码可在https://github.com/wizard-III/ArcherCodeR 获取。
🔬 方法详解
问题定义:现有基于可验证奖励的强化学习(RLVR)方法在提升大型语言模型(LLM)推理能力时,对所有token采用相同的训练策略,没有区分知识相关的低熵token和推理相关的高熵token。这种一视同仁的方式可能损害模型输出的语义连贯性,阻碍有效学习,并且容易遗忘已有的知识。
核心思路:Archer的核心思想是区分对待知识token和推理token,采用双token约束策略。对推理token施加较弱的约束,鼓励探索和生成多样化的推理路径;对知识token施加较强的约束,以稳定已有的知识,防止模型遗忘或产生错误的事实。
技术框架:Archer采用同步更新的训练框架,避免异步更新可能导致的语义依赖性破坏。整体流程包括:1) 使用LLM生成输出;2) 根据token的熵值,区分知识token和推理token;3) 对不同类型的token施加不同的KL正则化强度和裁剪阈值;4) 使用强化学习算法更新模型参数。
关键创新:Archer的关键创新在于提出了熵感知的双token约束策略。与以往方法不同,Archer能够根据token的熵值动态调整训练信号的强度,从而更好地平衡探索和稳定,提升模型的推理能力和知识保持能力。这种方法避免了以往方法中梯度掩蔽或异步更新可能导致的语义依赖性破坏。
关键设计:Archer的关键设计包括:1) 使用token的熵值作为区分知识token和推理token的指标;2) 对推理token使用较小的KL正则化系数和较大的裁剪阈值,鼓励探索;3) 对知识token使用较大的KL正则化系数和较小的裁剪阈值,稳定知识;4) 采用同步更新策略,保证训练过程中的语义连贯性。具体而言,KL散度损失的系数以及PPO算法中clip的范围会根据token的熵值进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Archer在数学推理和代码生成基准测试中显著优于现有的RLVR方法。例如,在某些数学推理任务上,Archer的性能提升超过10%,并且达到了或超过了同等规模模型的最先进水平。这表明Archer能够有效地提升LLM的推理能力并稳定知识。
🎯 应用场景
Archer可应用于各种需要大型语言模型进行复杂推理和知识密集型任务的场景,例如数学问题求解、代码生成、知识问答、对话系统等。该方法能够提升模型在这些任务上的准确性和可靠性,具有广泛的应用前景。
📄 摘要(原文)
Reinforcement Learning with Verifiable Rewards (RLVR) has become an effective post-training method for improving the reasoning abilities of Large Language Models (LLMs), mainly by shaping higher-order behaviors such as reflection and planning. However, previous RLVR algorithms often apply uniform training signals to all tokens, without considering the different roles of low-entropy knowledge-related tokens and high-entropy reasoning-related tokens. Some recent methods try to separate these token types by gradient masking or asynchronous updates, but these approaches may break semantic dependencies in the model output and hinder effective learning. In this work, we propose Archer, an entropy-aware RLVR approach with dual-token constraints and synchronous updates. Specifically, our method applies weaker KL regularization and higher clipping thresholds to reasoning tokens to encourage exploration, while using stronger constraints on knowledge tokens to maintain factual knowledge. Experimental results on several mathematical reasoning and code generation benchmarks show that our approach significantly outperforms previous RLVR methods, reaching or exceeding state-of-the-art performance among models of comparable size. The code is available at https://github.com/wizard-III/ArcherCodeR.