An Imperfect Verifier is Good Enough: Learning with Noisy Rewards
作者: Andreas Plesner, Francisco Guzmán, Anish Athalye
分类: cs.LG, cs.AI
发布日期: 2026-04-09
💡 一句话要点
研究表明:带噪声奖励的强化学习在LLM训练中具有鲁棒性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 奖励函数 噪声鲁棒性 代码生成 科学推理 模型验证 后训练
📋 核心要点
- 现有RLVR方法依赖的验证器通常存在噪声,这给LLM的训练带来挑战,需要研究噪声对训练的影响。
- 本文通过在RL训练中引入不同类型的噪声,研究了RLVR对噪声的鲁棒性以及验证器精度对训练效果的影响。
- 实验结果表明,即使存在高达15%的噪声,RLVR仍然能够取得接近干净基线的性能,表明其具有较强的鲁棒性。
📝 摘要(中文)
本文研究了带有可验证奖励的强化学习(RLVR)在后训练大型语言模型(LLM)中的应用。尽管验证器并非完美,甚至确定性检查也可能不准确,且对基于模型的判断依赖性日益增加,但RLVR对噪声的鲁棒性以及有效训练所需的验证器精度仍是未解决的问题。通过在代码生成和科学推理领域引入噪声,我们探究了这些问题。结果表明,高达15%的噪声率产生的验证精度与干净基线相比,仅相差2个百分点。这一发现在受控和基于模型的噪声类型、三种模型系列(Qwen3、GLM4、Llama 3.1)以及4B到9B的模型尺寸上均保持一致。总体而言,结果表明不完美的验证并非RLVR的根本障碍。此外,我们的研究结果表明,从业者应优先考虑具有高精度的适度准确性,而非追求完美的验证。
🔬 方法详解
问题定义:论文旨在解决在使用带有可验证奖励的强化学习(RLVR)训练大型语言模型(LLM)时,验证器存在噪声的问题。现有的RLVR方法通常假设验证器是准确的,但实际应用中,验证器可能存在错误,这会影响训练效果。论文关注的问题是:RLVR对验证器噪声的鲁棒性如何?训练所需的验证器精度是多少?
核心思路:论文的核心思路是通过在RL训练过程中引入不同程度和类型的噪声,来评估RLVR对噪声的鲁棒性。通过观察在不同噪声水平下模型的性能变化,来确定RLVR在何种程度上能够容忍不完美的验证器。同时,论文还探讨了精度和召回率对训练效果的影响,提出了优先考虑高精度适度准确性的策略。
技术框架:论文采用了一种基于强化学习的训练框架,其中包含以下主要模块:1) LLM:作为被训练的模型,负责生成代码或进行科学推理。2) 验证器:用于评估LLM生成的答案的正确性,并给出奖励信号。3) 强化学习算法:用于根据验证器的奖励信号更新LLM的参数。论文通过在验证器中引入噪声来模拟不完美的验证过程。
关键创新:论文的关键创新在于系统地研究了RLVR对验证器噪声的鲁棒性。以往的研究通常假设验证器是准确的,而论文则关注了实际应用中验证器可能存在的错误,并探讨了这些错误对训练效果的影响。此外,论文还提出了优先考虑高精度适度准确性的验证策略,为实际应用提供了指导。
关键设计:论文设计了两种类型的噪声:受控噪声和基于模型的噪声。受控噪声是指人为地引入随机错误,例如随机翻转验证结果。基于模型的噪声是指使用另一个模型作为验证器,由于模型本身的局限性,其验证结果可能存在错误。论文还使用了不同的模型系列(Qwen3、GLM4、Llama 3.1)和模型尺寸(4B到9B)进行实验,以验证结果的普适性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使在高达15%的噪声率下,RLVR训练得到的模型验证精度与干净基线相比,仅下降不到2个百分点。这一结果在不同类型的噪声、不同的模型系列和模型尺寸上均保持一致,表明RLVR具有较强的鲁棒性。此外,研究还发现,优先考虑具有高精度的适度准确性比追求完美的验证更有效。
🎯 应用场景
该研究成果可应用于各种需要使用LLM进行代码生成、科学推理等任务的场景。通过了解RLVR对噪声的鲁棒性,可以更好地设计和训练LLM,提高其在实际应用中的性能。此外,该研究还为验证器的设计提供了指导,有助于开发更有效、更可靠的验证系统。
📄 摘要(原文)
Reinforcement Learning with Verifiable Rewards (RLVR) has become a prominent method for post-training Large Language Models (LLMs). However, verifiers are rarely error-free; even deterministic checks can be inaccurate, and the growing dependence on model-based judges exacerbates the issue. The extent to which RLVR is robust to such noise and the verifier accuracy required for effective training remain unresolved questions. We investigate these questions in the domains of code generation and scientific reasoning by introducing noise into RL training. Noise rates up to 15% yield peak validation accuracy within 2 percentage points of the clean baseline. These findings are consistent across controlled and model-based noise types, three model families (Qwen3, GLM4, Llama 3.1), and model sizes from 4B to 9B. Overall, the results indicate that imperfect verification does not constitute a fundamental barrier to RLVR. Furthermore, our findings suggest that practitioners should prioritize moderate accuracy with high precision over perfect verification.