No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping

📄 arXiv: 2509.21880v2 📥 PDF

作者: Thanh-Long V. Le, Myeongho Jeon, Kim Vu, Viet Lai, Eunho Yang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-09-26 (更新: 2025-12-27)

备注: Under review. Project page: https://bltnynk.github.io/publications/rl-zvp/


💡 一句话要点

提出RL-ZVP算法,利用大语言模型强化学习中零方差提示提升数学推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 强化学习 零方差提示 数学推理 策略优化

📋 核心要点

  1. 现有基于可验证奖励的强化学习方法忽略了零方差提示,导致信息利用不充分。
  2. RL-ZVP算法从零方差提示中提取学习信号,直接奖励正确答案并惩罚错误答案。
  3. 实验表明,RL-ZVP在数学推理任务上显著优于现有方法,提升了准确率和通过率。

📝 摘要(中文)

基于可验证奖励的强化学习(RLVR)是提升大语言模型(LLM)推理能力的有效框架。然而,现有方法如GRPO仅依赖于模型对相同输入产生不同正确性响应的问题,忽略了所有响应都获得相同奖励的情况,即所谓的零方差提示。本文认为这些提示并非无用,实际上可以为策略优化提供有意义的反馈。为此,我们引入了基于零方差提示的强化学习(RL-ZVP),这是一种从零方差提示中提取学习信号的新算法。RL-ZVP直接奖励正确性并惩罚错误,即使没有对比响应,也能通过token级别的特征来调节反馈,从而保留信息丰富且细致的信号。在六个数学推理基准测试中,RL-ZVP相对于GRPO取得了显著的改进,准确率提高了高达8.61个百分点,通过率提高了7.77个百分点,同时始终优于其他过滤零方差提示的基线。这些结果突出了在RLVR中从零方差提示中学习的未开发潜力。

🔬 方法详解

问题定义:现有基于可验证奖励的强化学习方法,如GRPO,在训练大语言模型进行推理时,主要依赖于模型对同一问题产生不同答案,且答案有正确与否差异的提示。然而,大量提示可能导致模型对所有答案都给出相同的结果(全对或全错),这些“零方差提示”被现有方法直接忽略,造成了数据浪费,限制了模型的学习效率。

核心思路:RL-ZVP的核心思想是,即使模型对同一提示的所有响应都相同,这些响应仍然包含有价值的信息。如果所有响应都正确,则应该奖励这种行为;如果所有响应都错误,则应该惩罚这种行为。通过直接奖励正确性并惩罚错误,即使没有对比,也能利用这些零方差提示来指导策略优化。

技术框架:RL-ZVP的整体框架仍然基于强化学习,但引入了对零方差提示的处理机制。具体流程如下:1) 从数据集中选择提示;2) 大语言模型生成响应;3) 验证器评估响应的正确性;4) 如果提示是零方差的,则根据响应的正确性直接给予奖励或惩罚;5) 如果提示不是零方差的,则使用标准强化学习方法(如GRPO)进行策略更新。

关键创新:RL-ZVP最重要的创新点在于它能够有效地利用零方差提示进行学习。与现有方法直接丢弃这些提示不同,RL-ZVP通过直接奖励和惩罚机制,将这些提示转化为有用的训练信号。此外,论文还提出使用token级别的特征来调节反馈,以保留更细致的信息。

关键设计:RL-ZVP的关键设计包括:1) 奖励函数的设计,需要仔细平衡奖励正确答案和惩罚错误答案的力度;2) token级别特征的选择,例如可以使用token的熵来衡量其信息量,并根据信息量调整奖励或惩罚的幅度;3) 与现有强化学习算法的集成,需要确保RL-ZVP能够与现有算法无缝衔接,并共同优化策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RL-ZVP在六个数学推理基准测试中取得了显著的改进,相对于GRPO,准确率提高了高达8.61个百分点,通过率提高了7.77个百分点。实验结果表明,RL-ZVP能够有效地利用零方差提示,显著提升大语言模型的推理能力,并且始终优于其他过滤零方差提示的基线方法。

🎯 应用场景

RL-ZVP算法可应用于各种需要大语言模型进行推理的任务,例如数学问题求解、代码生成、知识问答等。通过更有效地利用数据,RL-ZVP可以提高模型的准确性和效率,降低训练成本。该研究对于提升大语言模型在资源受限场景下的性能具有重要意义,并为未来的强化学习算法设计提供了新的思路。

📄 摘要(原文)

Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful framework for improving the reasoning abilities of Large Language Models (LLMs). However, current methods such as GRPO rely only on problems where the model responses to the same input differ in correctness, while ignoring those where all responses receive the same reward -- so-called zero-variance prompts. In this work, we argue that such prompts are not useless but can, in fact, provide meaningful feedback for policy optimization. To this end, we introduce RL with Zero-Variance Prompts (RL-ZVP), a novel algorithm that extract learning signals from zero-variance prompts. RL-ZVP directly rewards correctness and penalizes errors even without contrasting responses, modulating feedback with token-level characteristics to preserve informative, nuanced signals. Across six math reasoning benchmarks, RL-ZVP achieves significant improvements of up to 8.61 points in accuracy and 7.77 points in pass rate over GRPO, while consistently outperforming other baselines that filter out zero-variance prompts. These results highlight the untapped potential of learning from zero-variance prompts in RLVR.