Noisy Data is Destructive to Reinforcement Learning with Verifiable Rewards
作者: Yuxuan Zhu, Daniel Kang
分类: cs.LG
发布日期: 2026-03-17
备注: 16 pages, 17 figures
💡 一句话要点
揭示带可验证奖励的强化学习对噪声数据的脆弱性,强调高质量数据的重要性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 可验证奖励 噪声数据 数据质量 数据集清洗
📋 核心要点
- 现有研究表明RLVR算法能有效应对噪声数据,但该研究发现现有噪声数据集中存在被污染的干净数据。
- 通过严格的重新验证流程,论文纠正了数据集,从而能够更准确地评估噪声对RLVR的影响。
- 实验结果表明,噪声对RLVR具有负面影响,现有算法无法有效缓解,且真实噪声会导致性能显著下降。
📝 摘要(中文)
带可验证奖励的强化学习(RLVR)推动了大型语言模型在各个领域的能力提升。最近的研究表明,改进的RLVR算法能够有效地从不正确的标注中学习,达到与从干净数据学习相当的性能。然而,本文指出这些发现是无效的,因为声称的100%噪声训练数据被“污染”了干净数据。在通过严格的重新验证流程纠正数据集后,我们证明了噪声对RLVR具有破坏性。现有的RLVR算法改进未能减轻噪声的影响,仅取得与基本GRPO相似的性能。此外,在数学推理基准测试中,用真正不正确的标注训练的模型比用干净数据训练的模型表现差8-10%。最后,我们表明这些发现在Text2SQL任务的真实世界噪声中也成立,其中在真实世界的人工标注错误上训练导致比干净数据低5-12%的准确率。我们的结果表明,当前的RLVR方法还不能弥补较差的数据质量。高质量数据仍然至关重要。
🔬 方法详解
问题定义:现有研究声称带可验证奖励的强化学习(RLVR)算法能够有效应对噪声数据,甚至达到与干净数据相当的性能。然而,这些研究使用的噪声数据集可能存在问题,即被“污染”了干净数据,导致结论不准确。因此,需要重新评估噪声数据对RLVR的影响,并验证现有算法在真实噪声环境下的性能。
核心思路:论文的核心思路是通过一个严格的重新验证流程,清洗现有的噪声数据集,去除其中被错误标记为噪声的干净数据。然后,使用清洗后的数据集重新训练RLVR模型,并评估其性能。通过对比在干净数据、清洗后的噪声数据和真实噪声数据上训练的模型性能,来验证噪声对RLVR的真实影响。
技术框架:论文的技术框架主要包括以下几个步骤:1) 对现有噪声数据集进行重新验证,识别并去除被错误标记为噪声的干净数据;2) 使用清洗后的噪声数据集训练RLVR模型,并与在干净数据上训练的模型进行性能对比;3) 在真实的Text2SQL任务中使用真实的人工标注错误数据训练RLVR模型,并与在干净数据上训练的模型进行性能对比;4) 分析实验结果,评估噪声对RLVR的影响,并验证现有算法在真实噪声环境下的性能。
关键创新:论文的关键创新在于:1) 揭示了现有RLVR研究中使用的噪声数据集可能存在被污染的干净数据的问题;2) 提出了一个严格的重新验证流程,用于清洗噪声数据集,提高数据的质量;3) 通过实验证明了噪声对RLVR具有破坏性影响,现有算法无法有效缓解,强调了高质量数据的重要性。
关键设计:论文的关键设计包括:1) 重新验证流程的具体实现,包括验证标准、验证工具和验证人员的选择;2) RLVR模型的选择和训练参数的设置;3) 实验评估指标的选择,例如数学推理任务的准确率和Text2SQL任务的准确率;4) 对比实验的设计,包括干净数据、清洗后的噪声数据和真实噪声数据的选择。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在数学推理基准测试中,用真正不正确的标注训练的模型比用干净数据训练的模型表现差8-10%。在Text2SQL任务中,在真实世界的人工标注错误上训练导致比干净数据低5-12%的准确率。这些结果有力地证明了噪声对RLVR具有破坏性影响,现有算法无法有效缓解。
🎯 应用场景
该研究成果对自然语言处理领域的模型训练具有重要意义。它强调了数据质量的重要性,并提醒研究人员在进行相关研究时,需要对数据集进行严格的清洗和验证。此外,该研究也为未来RLVR算法的设计提供了新的方向,即如何更好地应对噪声数据,提高模型的鲁棒性。
📄 摘要(原文)
Reinforcement learning with verifiable rewards (RLVR) has driven recent capability advances of large language models across various domains. Recent studies suggest that improved RLVR algorithms allow models to learn effectively from incorrect annotations, achieving performance comparable to learning from clean data. In this work, we show that these findings are invalid because the claimed 100% noisy training data is "contaminated" with clean data. After rectifying the dataset with a rigorous re-verification pipeline, we demonstrate that noise is destructive to RLVR. We show that existing RLVR algorithm improvements fail to mitigate the impact of noise, achieving similar performance to that of the basic GRPO. Furthermore, we find that the model trained on truly incorrect annotations performs 8-10% worse than the model trained on clean data across mathematical reasoning benchmarks. Finally, we show that these findings hold for real-world noise in Text2SQL tasks, where training on real-world, human annotation errors cause 5-12% lower accuracy than clean data. Our results show that current RLVR methods cannot yet compensate for poor data quality. High-quality data remains essential.