TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning

📄 arXiv: 2505.14625v2 📥 PDF

作者: Zhangchen Xu, Yuetai Li, Fengqing Jiang, Bhaskar Ramasubramanian, Luyao Niu, Bill Yuchen Lin, Radha Poovendran

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-05-20 (更新: 2025-05-22)

🔗 代码/项目: GITHUB


💡 一句话要点

TinyV:通过减少验证中的假阴性来改进LLM推理的强化学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 奖励函数 假阴性 数学推理 验证器 微调

📋 核心要点

  1. 现有基于验证器奖励的LLM强化学习方法受困于验证器产生大量假阴性结果,导致模型无法获得正确的梯度信号。
  2. TinyV提出了一种轻量级的LLM验证器,用于动态识别并纠正现有验证器产生的假阴性结果,从而更准确地评估模型输出。
  3. 实验表明,在多个数学推理基准测试中,集成TinyV能够显著提升模型通过率,并加速模型收敛。

📝 摘要(中文)

强化学习(RL)已成为通过奖励信号优化策略来增强大型语言模型(LLM)推理能力的强大工具。然而,RL的成功依赖于验证器提供的奖励的可靠性。本文揭示并分析了一个普遍存在的问题——假阴性,即验证器错误地拒绝了正确的模型输出。我们对Big-Math-RL-Verified数据集的深入研究表明,超过38%的模型生成响应受到假阴性的影响,验证器未能识别正确的答案。我们通过实验和理论证明,这些假阴性通过剥夺模型的信息梯度信号并减缓收敛速度,严重损害了RL训练。为了缓解这个问题,我们提出了tinyV,一种轻量级的基于LLM的验证器,它增强了现有的基于规则的方法,动态地识别潜在的假阴性并恢复有效的响应,从而产生更准确的奖励估计。在多个数学推理基准测试中,集成TinyV将通过率提高了高达10%,并加速了相对于基线的收敛。我们的研究结果强调了解决验证器假阴性的重要性,并提供了一种实用的方法来改进基于RL的LLM微调。我们的代码可在https://github.com/uw-nsl/TinyV获得。

🔬 方法详解

问题定义:论文旨在解决在利用强化学习微调LLM以提升其推理能力时,由于验证器产生大量假阴性结果而导致的训练效率低下问题。现有基于规则的验证器虽然速度快,但容易漏判正确的答案,从而使模型无法获得正确的奖励信号,阻碍了模型的学习。

核心思路:论文的核心思路是利用一个轻量级的LLM作为辅助验证器,对现有验证器给出的负反馈进行二次验证,判断其是否为假阴性。如果LLM认为该答案是正确的,则将其纠正为正反馈,从而为模型提供更准确的奖励信号。

技术框架:TinyV的技术框架主要包含以下几个步骤:1) 模型生成答案;2) 现有验证器对答案进行验证;3) 如果验证器给出负反馈,则将答案输入到TinyV中进行二次验证;4) TinyV根据自身的判断,决定是否纠正验证器的反馈结果;5) 根据最终的反馈结果,计算奖励并更新模型参数。

关键创新:TinyV的关键创新在于利用LLM的强大推理能力来识别和纠正验证器产生的假阴性结果。与传统的基于规则的验证器相比,TinyV能够更准确地判断答案的正确性,从而为模型提供更可靠的奖励信号。此外,TinyV的设计非常轻量级,可以快速部署和使用。

关键设计:TinyV的关键设计包括:1) 使用一个相对较小的LLM作为辅助验证器,以降低计算成本;2) 使用prompt engineering来引导LLM进行二次验证,例如,提供一些上下文信息或提示;3) 使用一个阈值来控制TinyV的纠正行为,以避免引入过多的噪声。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在多个数学推理基准测试中,集成TinyV能够将模型通过率提高高达10%,并加速模型收敛。例如,在Big-Math-RL-Verified数据集上,TinyV能够将模型通过率从基线的52%提升到62%。此外,TinyV还能够显著减少模型训练所需的迭代次数。

🎯 应用场景

该研究成果可广泛应用于需要利用强化学习微调LLM的各种场景,例如数学推理、代码生成、问答系统等。通过减少验证器产生的假阴性结果,可以显著提升模型的训练效率和最终性能,加速LLM在各个领域的应用。

📄 摘要(原文)

Reinforcement Learning (RL) has become a powerful tool for enhancing the reasoning abilities of large language models (LLMs) by optimizing their policies with reward signals. Yet, RL's success relies on the reliability of rewards, which are provided by verifiers. In this paper, we expose and analyze a widespread problem--false negatives--where verifiers wrongly reject correct model outputs. Our in-depth study of the Big-Math-RL-Verified dataset reveals that over 38% of model-generated responses suffer from false negatives, where the verifier fails to recognize correct answers. We show, both empirically and theoretically, that these false negatives severely impair RL training by depriving the model of informative gradient signals and slowing convergence. To mitigate this, we propose tinyV, a lightweight LLM-based verifier that augments existing rule-based methods, which dynamically identifies potential false negatives and recovers valid responses to produce more accurate reward estimates. Across multiple math-reasoning benchmarks, integrating TinyV boosts pass rates by up to 10% and accelerates convergence relative to the baseline. Our findings highlight the critical importance of addressing verifier false negatives and offer a practical approach to improve RL-based fine-tuning of LLMs. Our code is available at https://github.com/uw-nsl/TinyV.