Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward
作者: Guanhua Huang, Tingqiang Xu, Mingze Wang, Qi Yi, Xue Gong, Siheng Li, Ruibin Xiong, Kejiao Li, Yuhao Jiang, Bo Zhou
分类: cs.LG, cs.CL
发布日期: 2025-10-03 (更新: 2025-11-07)
🔗 代码/项目: GITHUB
💡 一句话要点
提出低概率正则化(Lp-Reg)方法,解决RLVR中探索性token消失问题,提升复杂推理任务性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 可验证奖励 探索策略 低概率正则化 复杂推理 语言模型 数学问题求解
📋 核心要点
- RLVR训练中,策略熵崩溃导致探索不足,性能停滞,现有方法维持高熵但忽略了token的重要性。
- Lp-Reg通过正则化策略到过滤噪声后的代理分布,放大低概率但重要的“推理火花”的概率。
- 实验表明,Lp-Reg能稳定扩展RLVR训练,在数学基准测试中超越现有方法,平均准确率提升2.66%。
📝 摘要(中文)
可验证奖励的强化学习(RLVR)推动了大型语言模型在复杂推理方面的应用,但其可扩展性常受到训练瓶颈的限制,即性能随着策略熵的崩溃而停滞,表明探索的丧失。以往的方法通常通过维持高策略熵来解决这个问题,但控制有意义探索的精确机制仍未被充分探索。我们的分析表明,不加选择地关注熵可能会放大不相关的token并破坏训练的稳定性。本文研究了RLVR中的探索动态,并发现了一个关键问题:有价值的低概率探索性token(我们称之为“推理火花”)的逐渐消失。我们发现,这些火花在预训练模型中很丰富,但在RLVR过程中由于过度惩罚而被系统性地消除,导致探索的退化。为了解决这个问题,我们引入了低概率正则化(Lp-Reg)。其核心机制是将策略正则化到启发式代理分布。该代理通过过滤掉假定的噪声token并重新归一化剩余候选者的分布来构建。结果是一个噪声较小的代理,其中“推理火花”的概率被放大,然后作为软正则化目标,以保护这些有价值的token免受通过KL散度进行的消除。实验表明,Lp-Reg能够实现稳定的on-policy RL,在3,000个训练步骤和81,204个GPU-hours内持续扩展,而基线熵控制方法则崩溃。这种持续的探索带来了最先进的性能,在五个数学基准测试中实现了60.17%的平均准确率,比以前的方法提高了2.66%。
🔬 方法详解
问题定义:RLVR在复杂推理任务中面临探索不足的问题。现有方法如简单地增加策略熵,无法区分有价值的探索性token和噪声token,导致训练不稳定和性能瓶颈。关键在于如何有效维持和利用那些低概率但对推理至关重要的token(即“推理火花”)。
核心思路:论文的核心思路是通过正则化策略,使其倾向于一个经过筛选的代理分布。这个代理分布通过过滤掉噪声token,并重新归一化剩余token的概率,从而放大“推理火花”的概率。这样,在训练过程中,策略就不会轻易地消除这些有价值的token,从而维持有效的探索。
技术框架:Lp-Reg方法主要包含以下几个阶段:1) 训练标准的RLVR模型;2) 构建启发式代理分布:首先,使用某种策略(例如,基于频率或置信度)识别并过滤掉被认为是噪声的token;然后,重新归一化剩余token的概率,得到代理分布;3) 使用KL散度将当前策略正则化到代理分布,从而鼓励模型保留和利用“推理火花”。
关键创新:Lp-Reg的关键创新在于它有选择性地维持低概率token,而不是像传统方法那样盲目地增加策略熵。通过构建一个过滤噪声后的代理分布,Lp-Reg能够更有效地引导模型探索有价值的token,从而避免了探索的退化。
关键设计:关键设计包括:1) 噪声token的过滤策略:论文可能使用了基于频率或置信度的阈值来识别噪声token。具体阈值的选择会影响代理分布的质量;2) KL散度的权重:KL散度损失的权重控制了正则化的强度。过强的正则化可能会限制模型的学习能力,而过弱的正则化则可能无法有效地维持“推理火花”。3) 代理分布的构建方式:如何有效地过滤噪声token并重新归一化剩余token的概率是构建高质量代理分布的关键。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Lp-Reg在五个数学基准测试中实现了60.17%的平均准确率,比现有方法提高了2.66%。此外,Lp-Reg能够稳定地扩展RLVR训练,在3,000个训练步骤和81,204个GPU-hours内持续提升性能,而基线熵控制方法则出现性能崩溃。
🎯 应用场景
该研究成果可应用于各种需要复杂推理和决策的场景,例如数学问题求解、代码生成、游戏AI等。通过提升模型的探索能力,可以使其在更复杂的任务中取得更好的性能,并有望推动通用人工智能的发展。
📄 摘要(原文)
Reinforcement Learning with Verifiable Rewards (RLVR) has propelled Large Language Models in complex reasoning, yet its scalability is often hindered by a training bottleneck where performance plateaus as policy entropy collapses, signaling a loss of exploration. Previous methods typically address this by maintaining high policy entropy, yet the precise mechanisms that govern meaningful exploration have remained underexplored. Our analysis suggests that an unselective focus on entropy risks amplifying irrelevant tokens and destabilizing training. This paper investigates the exploration dynamics within RLVR and identifies a key issue: the gradual elimination of valuable low-probability exploratory tokens, which we term \textbf{\textit{reasoning sparks}}. We find that while abundant in pre-trained models, these sparks are systematically extinguished during RLVR due to over-penalization, leading to a degeneracy in exploration. To address this, we introduce Low-probability Regularization (Lp-Reg). Its core mechanism regularizes the policy towards a heuristic proxy distribution. This proxy is constructed by filtering out presumed noise tokens and re-normalizing the distribution over the remaining candidates. The result is a less-noisy proxy where the probability of \textit{reasoning sparks} is amplified, which then serves as a soft regularization target to shield these valuable tokens from elimination via KL divergence. Experiments show that Lp-Reg enables stable on-policy RL, sustaining continuous scaling across $3,000$ training steps and $81,204$ GPU-hours, where baseline entropy-control methods collapse. This sustained exploration leads to state-of-the-art performance, achieving a $60.17\%$ average accuracy on five math benchmarks, an improvement of $2.66\%$ over prior methods. Code is available at https://github.com/CarlanLark/Lp-Reg.