No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping

📄 arXiv: 2509.21880v1 📥 PDF

作者: Thanh-Long V. Le, Myeongho Jeon, Kim Vu, Viet Lai, Eunho Yang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-09-26


💡 一句话要点

提出RL-ZVP算法,利用大语言模型强化学习中零方差提示提升数学推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 强化学习 零方差提示 数学推理 策略优化

📋 核心要点

  1. 现有基于可验证奖励的强化学习方法忽略了零方差提示,导致信息损失。
  2. RL-ZVP算法利用零方差提示,直接奖励正确答案并惩罚错误答案,提升学习效率。
  3. 实验表明,RL-ZVP在数学推理任务上显著优于现有方法,准确率和通过率均有提升。

📝 摘要(中文)

基于可验证奖励的强化学习(RLVR)是提升大语言模型(LLM)推理能力的有效框架。然而,现有方法如GRPO仅依赖于模型对相同输入产生不同正确性响应的问题,忽略了所有响应获得相同奖励的情况,即所谓的零方差提示。本文认为,这些提示并非无用,实际上可以为策略优化提供有意义的反馈。为此,我们提出了基于零方差提示的强化学习(RL-ZVP),一种从零方差提示中提取学习信号的新算法。RL-ZVP直接奖励正确性并惩罚错误,即使没有对比响应,也能通过token级别的特征来调节反馈,从而保留信息丰富且细致的信号。在六个数学推理基准测试中,RL-ZVP相对于GRPO取得了显著的改进,准确率提高了8.61个百分点,通过率提高了7.77个百分点,并且始终优于其他过滤零方差提示的基线。这些结果突出了在RLVR中从零方差提示中学习的未开发潜力。

🔬 方法详解

问题定义:现有基于可验证奖励的强化学习方法,如GRPO,在训练大语言模型时,主要依赖于模型对相同输入产生不同正确性响应的样本。然而,大量样本中,模型对相同输入的响应具有一致的正确性(即零方差提示),这些样本被现有方法忽略,造成了信息浪费,限制了模型的学习效率和性能提升。

核心思路:RL-ZVP的核心思路是充分利用零方差提示中蕴含的信息。即使模型对同一输入的多次响应都正确或都错误,这些信息仍然可以用于强化学习。通过直接奖励正确答案并惩罚错误答案,即使没有对比,也能为策略优化提供有价值的反馈。

技术框架:RL-ZVP的整体框架与传统的强化学习框架类似,但关键在于如何处理零方差提示。其主要流程包括:1) 从数据集中筛选出零方差提示;2) 对于每个零方差提示,根据模型的响应结果,给予相应的奖励或惩罚;3) 使用这些奖励信号来更新模型的策略。框架的关键在于奖励函数的设计,需要能够有效地区分正确和错误的响应,并能够适应不同的任务和数据集。

关键创新:RL-ZVP最重要的创新点在于它能够从零方差提示中提取有用的学习信号。与现有方法不同,RL-ZVP并不简单地丢弃这些提示,而是通过精心设计的奖励函数,将这些提示转化为有价值的训练数据。这种方法能够更充分地利用数据,提高模型的学习效率和性能。

关键设计:RL-ZVP的关键设计在于其奖励函数。该奖励函数不仅考虑了响应的正确性,还考虑了token级别的特征,例如token的熵。通过token级别的熵来调节反馈,可以保留信息丰富且细致的信号。具体来说,对于正确的响应,奖励函数会给予正向奖励,对于错误的响应,奖励函数会给予负向奖励。奖励的大小会根据token的熵进行调整,熵越高,奖励或惩罚越大。此外,RL-ZVP还可能包含一些正则化项,以防止模型过度拟合。

📊 实验亮点

实验结果表明,RL-ZVP在六个数学推理基准测试中显著优于GRPO和其他基线方法。具体而言,RL-ZVP的准确率提高了高达8.61个百分点,通过率提高了高达7.77个百分点。这些结果表明,RL-ZVP能够有效地利用零方差提示,从而显著提升大语言模型的推理能力。

🎯 应用场景

RL-ZVP算法可广泛应用于提升大语言模型在各种推理任务中的性能,例如数学推理、常识推理和代码生成。通过更有效地利用训练数据,该方法可以降低训练成本,提高模型精度,并促进大语言模型在教育、科研和工业等领域的应用。

📄 摘要(原文)

Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful framework for improving the reasoning abilities of Large Language Models (LLMs). However, current methods such as GRPO rely only on problems where the model responses to the same input differ in correctness, while ignoring those where all responses receive the same reward - so-called zero-variance prompts. In this work, we argue that such prompts are not useless but can, in fact, provide meaningful feedback for policy optimization. To this end, we introduce RL with Zero-Variance Prompts (RL-ZVP), a novel algorithm that extract learning signals from zero-variance prompts. RL-ZVP directly rewards correctness and penalizes errors even without contrasting responses, modulating feedback with token-level characteristics to preserve informative, nuanced signals. Across six math reasoning benchmarks, RL-ZVP achieves significant improvements of up to 8.61 points in accuracy and 7.77 points in pass rate over GRPO, while consistently outperforming other baselines that filter out zero-variance prompts. These results highlight the untapped potential of learning from zero-variance prompts in RLVR.