The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason
作者: Ang Lv, Ruobing Xie, Xingwu Sun, Zhanhui Kang, Rui Yan
分类: cs.CL
发布日期: 2025-05-28
备注: Preprint
🔗 代码/项目: GITHUB
💡 一句话要点
研究奖励噪声对LLM推理能力的影响,提出基于推理模式奖励的校准方法。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 强化学习 奖励噪声 推理能力 推理模式奖励 后训练 鲁棒性
📋 核心要点
- 现有LLM推理强化学习研究侧重于可精确验证和奖励的任务,忽略了现实场景中奖励噪声的影响。
- 论文提出推理模式奖励(RPR)方法,仅奖励关键推理短语,无需验证答案正确性,引导模型学习。
- 实验表明,RPR能有效校准噪声奖励模型,提升LLM在开放式任务中的性能,甚至可与无噪声奖励模型媲美。
📝 摘要(中文)
本文研究了奖励噪声对大型语言模型(LLM)通过强化学习进行推理的影响,尤其关注现实场景中奖励模型带来的噪声。研究发现,LLM对显著的奖励噪声具有很强的鲁棒性。例如,在数学任务中手动翻转40%的奖励函数输出后,Qwen-2.5-7B模型仍然能够快速收敛,将性能从5%提高到72%,接近无噪声奖励训练的75%准确率。令人惊讶的是,仅奖励关键推理短语(即推理模式奖励,RPR)的出现,而无需验证答案的正确性,该模型就达到了与严格正确性验证和准确奖励训练的模型相当的峰值下游性能(Qwen-2.5-7B超过70%的准确率)。认识到推理过程比最终结果更重要,我们将RPR与噪声奖励模型相结合。RPR有助于校准噪声奖励模型,减轻潜在的假阴性,并提高LLM在开放式任务中的性能。这些发现表明,在预训练阶段提高模型的基础能力非常重要,同时也为推进后训练技术提供了见解。
🔬 方法详解
问题定义:论文旨在研究在利用强化学习对大型语言模型进行后训练时,奖励函数中存在的噪声对模型推理能力的影响。现有方法通常假设奖励是准确且可靠的,但在实际应用中,奖励模型往往存在偏差或噪声,这会影响模型的学习效果。论文关注的问题是,当奖励函数存在噪声时,如何有效地训练LLM进行推理。
核心思路:论文的核心思路是,与其依赖于准确的答案验证来提供奖励,不如关注模型在推理过程中展现出的推理模式。通过奖励模型中出现的关键推理短语(例如“首先,我需要...”,“因此,...”,“所以,...”等),即使最终答案不正确,也能引导模型学习正确的推理步骤。这种方法被称为推理模式奖励(RPR)。
技术框架:整体框架包括以下几个步骤:1) 使用大型语言模型(如Qwen-2.5-7B)作为基础模型;2) 定义推理任务,例如数学问题求解;3) 设计奖励函数,包括基于答案正确性的奖励和基于推理模式的奖励(RPR);4) 使用强化学习算法(具体算法未知)对模型进行后训练;5) 评估模型在下游任务上的性能。
关键创新:论文的关键创新在于提出了推理模式奖励(RPR)的概念。与传统的基于答案正确性的奖励相比,RPR更加关注推理过程,能够更好地引导模型学习正确的推理步骤,并且对奖励噪声具有更强的鲁棒性。此外,RPR还可以与噪声奖励模型相结合,用于校准奖励,提高模型在开放式任务中的性能。
关键设计:论文的关键设计包括:1) 推理模式奖励(RPR)的具体实现方式,即如何定义和识别关键推理短语;2) 如何将RPR与基于答案正确性的奖励相结合;3) 实验中使用的具体强化学习算法和超参数设置(未知);4) 噪声奖励模型的具体实现方式,例如手动翻转一定比例的奖励标签。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使在40%的奖励被手动翻转的情况下,使用Qwen-2.5-7B模型进行训练仍然可以将数学任务的准确率从5%提高到72%,接近无噪声奖励训练的75%。更令人惊讶的是,仅使用推理模式奖励(RPR),模型就能达到与使用严格正确性验证和准确奖励训练的模型相当的性能(超过70%的准确率)。
🎯 应用场景
该研究成果可应用于各种需要LLM进行推理的场景,例如智能客服、自动问答、代码生成等。通过关注推理过程而非仅仅依赖最终结果,可以提高LLM在噪声环境下的鲁棒性和可靠性。此外,该研究也为设计更有效的奖励函数和后训练方法提供了新的思路,有助于提升LLM的整体性能。
📄 摘要(原文)
Recent studies on post-training large language models (LLMs) for reasoning through reinforcement learning (RL) typically focus on tasks that can be accurately verified and rewarded, such as solving math problems. In contrast, our research investigates the impact of reward noise, a more practical consideration for real-world scenarios involving the post-training of LLMs using reward models. We found that LLMs demonstrate strong robustness to substantial reward noise. For example, manually flipping 40% of the reward function's outputs in math tasks still allows a Qwen-2.5-7B model to achieve rapid convergence, improving its performance on math tasks from 5% to 72%, compared to the 75% accuracy achieved by a model trained with noiseless rewards. Surprisingly, by only rewarding the appearance of key reasoning phrases (namely reasoning pattern reward, RPR), such as ``first, I need to''-without verifying the correctness of answers, the model achieved peak downstream performance (over 70% accuracy for Qwen-2.5-7B) comparable to models trained with strict correctness verification and accurate rewards. Recognizing the importance of the reasoning process over the final results, we combined RPR with noisy reward models. RPR helped calibrate the noisy reward models, mitigating potential false negatives and enhancing the LLM's performance on open-ended tasks. These findings suggest the importance of improving models' foundational abilities during the pre-training phase while providing insights for advancing post-training techniques. Our code and scripts are available at https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.