TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning
作者: Zhangchen Xu, Yuetai Li, Fengqing Jiang, Bhaskar Ramasubramanian, Luyao Niu, Bill Yuchen Lin, Radha Poovendran
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-05-20 (更新: 2025-05-22)
🔗 代码/项目: GITHUB
💡 一句话要点
提出TinyV以解决验证器假阴性问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 假阴性 推理能力 奖励信号 验证器 数学推理 TinyV
📋 核心要点
- 现有的强化学习方法依赖于验证器提供的奖励信号,但验证器的假阴性问题严重影响了模型训练的有效性。
- 论文提出TinyV,一个轻量级的LLM基础验证器,旨在动态识别假阴性并恢复有效的模型输出,从而提高奖励的准确性。
- 实验结果显示,集成TinyV后,模型在多个数学推理基准上的通过率提高了10%,并加快了收敛速度。
📝 摘要(中文)
强化学习(RL)已成为增强大型语言模型(LLM)推理能力的重要工具,但其成功依赖于验证器提供的可靠奖励信号。本文揭示并分析了一个普遍存在的问题——假阴性,即验证器错误拒绝正确的模型输出。通过对Big-Math-RL-Verified数据集的深入研究,我们发现超过38%的模型生成响应存在假阴性,导致RL训练受到严重影响。为此,我们提出了TinyV,一个轻量级的LLM基础验证器,动态识别潜在假阴性并恢复有效响应,从而提供更准确的奖励估计。实验结果表明,TinyV在多个数学推理基准上提高了通过率,并加速了收敛速度。
🔬 方法详解
问题定义:本文要解决的问题是验证器在评估模型输出时产生的假阴性,即错误拒绝正确答案的情况。这一问题导致模型无法获得有效的梯度信号,从而影响强化学习的训练效果。
核心思路:TinyV的核心思路是通过引入一个轻量级的LLM基础验证器,动态识别和纠正假阴性,从而提高奖励信号的准确性。这种设计旨在增强模型的学习能力,减少错误反馈。
技术框架:TinyV的整体架构包括数据输入模块、假阴性识别模块和奖励估计模块。数据输入模块负责接收模型生成的输出,假阴性识别模块利用LLM对输出进行验证,最后奖励估计模块生成更准确的奖励信号。
关键创新:TinyV的主要创新在于其轻量级设计和动态识别机制,与传统的基于规则的方法相比,能够更有效地处理假阴性问题,提升验证的准确性。
关键设计:在设计中,TinyV采用了特定的损失函数来优化奖励估计的准确性,并通过调整网络结构来提高假阴性识别的灵敏度。
📊 实验亮点
实验结果表明,集成TinyV后,模型在多个数学推理基准上的通过率提高了10%,并且相较于基线,收敛速度显著加快。这些结果强调了解决验证器假阴性问题的重要性。
🎯 应用场景
该研究的潜在应用领域包括教育、自动化推理系统和智能问答等。通过提高模型的推理能力,TinyV可以在更复杂的任务中提供更可靠的支持,具有重要的实际价值和未来影响。
📄 摘要(原文)
Reinforcement Learning (RL) has become a powerful tool for enhancing the reasoning abilities of large language models (LLMs) by optimizing their policies with reward signals. Yet, RL's success relies on the reliability of rewards, which are provided by verifiers. In this paper, we expose and analyze a widespread problem--false negatives--where verifiers wrongly reject correct model outputs. Our in-depth study of the Big-Math-RL-Verified dataset reveals that over 38% of model-generated responses suffer from false negatives, where the verifier fails to recognize correct answers. We show, both empirically and theoretically, that these false negatives severely impair RL training by depriving the model of informative gradient signals and slowing convergence. To mitigate this, we propose tinyV, a lightweight LLM-based verifier that augments existing rule-based methods, which dynamically identifies potential false negatives and recovers valid responses to produce more accurate reward estimates. Across multiple math-reasoning benchmarks, integrating TinyV boosts pass rates by up to 10% and accelerates convergence relative to the baseline. Our findings highlight the critical importance of addressing verifier false negatives and offer a practical approach to improve RL-based fine-tuning of LLMs. Our code is available at https://github.com/uw-nsl/TinyV.