Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward
作者: Peter Chen, Xiaopeng Li, Ziniu Li, Wotao Yin, Xi Chen, Tianyi Lin
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-12-18
备注: 35 pages
💡 一句话要点
通过裁剪、熵和虚假奖励重新思考RLVR,提升LLM推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 可验证奖励 探索-利用权衡 策略熵
📋 核心要点
- 现有RLVR方法在探索-利用平衡上存在不足,对LLM推理能力的提升机制理解不够深入。
- 论文提出通过裁剪偏差降低策略熵,并利用奖励错位模型解释虚假奖励的有效性。
- 实验表明,虚假奖励下的裁剪偏差能有效降低策略熵,提升LLM推理的确定性和准确性。
📝 摘要(中文)
本文研究了具有可验证奖励的强化学习(RLVR)中的探索-利用权衡,RLVR是一种用于改进大型语言模型(LLM)推理的框架。最近的研究表明,RLVR可以通过两种看似矛盾的机制来激发LLM强大的数学推理能力:虚假奖励,通过奖励与ground truth无关的结果来抑制利用;以及熵最小化,通过将模型推向更自信和确定性的输出来抑制探索。这突显了一种令人困惑的动态:抑制利用和抑制探索都能提高推理性能,但协调这些影响的潜在原则仍然知之甚少。我们关注两个基本问题:(i)策略熵如何与性能相关,以及(ii)虚假奖励是否能带来收益,可能是通过裁剪偏差和模型污染的相互作用。我们的结果表明,虚假奖励下的裁剪偏差降低了策略熵,从而产生更自信和确定性的输出,而仅靠熵最小化不足以改进。我们进一步提出了一个奖励错位模型,解释了为什么虚假奖励可以提高超出污染环境的性能。我们的发现阐明了虚假奖励背后机制,并为更有效的RLVR训练提供了原则。
🔬 方法详解
问题定义:现有RLVR方法在提升LLM推理能力时,对探索与利用的权衡机制理解不足。具体来说,虚假奖励和熵最小化这两种看似矛盾的方法都能提升性能,但其内在原理尚不明确。现有方法缺乏对策略熵与性能之间关系,以及虚假奖励收益来源的深入分析。
核心思路:论文的核心思路是通过分析裁剪偏差对策略熵的影响,以及构建奖励错位模型,来解释虚假奖励在RLVR中的作用。认为裁剪偏差在虚假奖励下能降低策略熵,从而产生更自信的输出。同时,奖励错位模型解释了虚假奖励在非污染环境下的有效性。
技术框架:论文主要通过理论分析和实验验证来研究RLVR中的探索-利用权衡。技术框架包括:1)分析裁剪偏差对策略熵的影响;2)构建奖励错位模型;3)设计实验验证虚假奖励的有效性。没有明确的整体架构或流程图。
关键创新:论文的关键创新在于:1)揭示了裁剪偏差在虚假奖励下降低策略熵的作用;2)提出了奖励错位模型,解释了虚假奖励在非污染环境下的有效性。与现有方法相比,该研究更深入地理解了虚假奖励的机制,并为更有效的RLVR训练提供了理论依据。
关键设计:论文的关键设计包括:1)使用裁剪操作来限制奖励的范围,从而引入裁剪偏差;2)定义策略熵来衡量模型输出的确定性;3)构建奖励错位模型,该模型考虑了奖励与真实目标之间的偏差。具体的参数设置、损失函数和网络结构在论文中没有详细描述,属于实验细节,可能因具体任务而异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在虚假奖励下,裁剪偏差能够有效降低策略熵,使得LLM输出更加自信和确定。同时,奖励错位模型能够解释虚假奖励在非污染环境下的有效性。这些发现为改进RLVR训练提供了新的思路和方法。
🎯 应用场景
该研究成果可应用于提升大型语言模型在数学推理、逻辑推理等领域的性能。通过更有效地利用虚假奖励和控制策略熵,可以训练出更可靠、更准确的LLM,从而在教育、科研、金融等领域发挥更大的作用。未来的研究可以探索更有效的奖励设计和策略优化方法。
📄 摘要(原文)
This paper examines the exploration-exploitation trade-off in reinforcement learning with verifiable rewards (RLVR), a framework for improving the reasoning of Large Language Models (LLMs). Recent studies suggest that RLVR can elicit strong mathematical reasoning in LLMs through two seemingly paradoxical mechanisms: spurious rewards, which suppress exploitation by rewarding outcomes unrelated to the ground truth, and entropy minimization, which suppresses exploration by pushing the model toward more confident and deterministic outputs, highlighting a puzzling dynamic: both discouraging exploitation and discouraging exploration improve reasoning performance, yet the underlying principles that reconcile these effects remain poorly understood. We focus on two fundamental questions: (i) how policy entropy relates to performance, and (ii) whether spurious rewards yield gains, potentially through the interplay of clipping bias and model contamination. Our results show that clipping bias under spurious rewards reduces policy entropy, leading to more confident and deterministic outputs, while entropy minimization alone is insufficient for improvement. We further propose a reward-misalignment model explaining why spurious rewards can enhance performance beyond contaminated settings. Our findings clarify the mechanisms behind spurious-reward benefits and provide principles for more effective RLVR training.