Distribution-Aware Reward Estimation for Test-Time Reinforcement Learning
作者: Bodong Du, Xuanqi Huang, Xiaomeng Li
分类: cs.CL
发布日期: 2026-01-29
💡 一句话要点
提出Distribution-Aware Reward Estimation (DARE)以提升测试时强化学习中LLM的自提升效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 测试时强化学习 大型语言模型 奖励估计 分布感知 自提升
📋 核心要点
- 现有测试时强化学习方法依赖多数投票估计奖励,忽略了非多数但正确的动作信息,导致奖励估计存在偏差。
- DARE通过考虑完整的rollout分布进行奖励估计,并引入探索奖励和分布剪枝机制,提升奖励的准确性和鲁棒性。
- 实验表明,DARE在推理任务上显著提升了LLM的自提升效果,优化稳定性和最终性能均优于现有方法。
📝 摘要(中文)
测试时强化学习(TTRL)使大型语言模型(LLM)能够在无标签输入上进行自我改进,但其有效性关键取决于如何在没有真实标签监督的情况下估计奖励信号。大多数现有的TTRL方法依赖于rollout上的多数投票(MV)来产生确定性奖励,隐含地假设多数rollout提供了可靠的学习信号。我们表明,这种假设是脆弱的:MV将rollout分布简化为单一结果,丢弃了关于非多数但正确的动作候选者的信息,并产生系统性偏差的奖励估计。为了解决这个问题,我们提出了Distribution-Aware Reward Estimation (DARE),它将奖励估计从单一多数结果转移到完整的经验rollout分布。DARE进一步利用探索奖励和分布剪枝机制来增强这种基于分布的奖励,以进行非多数rollout探索和奖励去噪,从而产生更具信息性和鲁棒性的奖励估计。在具有挑战性的推理基准上的大量实验表明,DARE提高了优化稳定性和最终性能,相对于最近的基线,在具有挑战性的AIME 2024上实现了25.3%的相对改进,在AMC上实现了5.3%的相对改进。
🔬 方法详解
问题定义:论文旨在解决测试时强化学习(TTRL)中,大型语言模型(LLM)在无标签数据上进行自提升时,奖励信号估计不准确的问题。现有方法,特别是基于多数投票(MV)的方法,将多个rollout的结果简化为单一的多数结果,忽略了其他可能正确的动作候选,导致奖励估计存在系统性偏差,学习信号不稳定。
核心思路:DARE的核心思路是将奖励估计从单一的多数结果扩展到整个经验rollout分布。不再只关注哪个动作被选择的次数最多,而是考虑所有被尝试过的动作及其相应的频率。通过利用整个分布的信息,DARE能够更准确地反映真实奖励的期望值,从而减少偏差。
技术框架:DARE方法主要包含三个关键模块:1) 基于经验rollout分布的奖励估计:利用所有rollout结果构建经验分布,并基于此估计奖励。2) 探索奖励:为了鼓励探索非多数但可能正确的动作,引入探索奖励,增加模型尝试不同动作的概率。3) 分布剪枝:为了去除噪声rollout的影响,采用分布剪枝机制,过滤掉概率较低的rollout,从而提高奖励估计的准确性。整体流程是,LLM在给定输入上进行多次rollout,然后使用DARE估计每个动作的奖励,最后利用这些奖励信号更新LLM的策略。
关键创新:DARE最重要的创新在于其distribution-aware的奖励估计方式。与传统的基于单一结果的奖励估计方法不同,DARE充分利用了rollout分布的信息,从而能够更准确地估计奖励。此外,探索奖励和分布剪枝机制进一步提高了奖励估计的鲁棒性和准确性。
关键设计:DARE的关键设计包括:1) 经验分布的构建方式,如何有效地表示和利用rollout结果。2) 探索奖励的具体形式,如何平衡探索和利用。3) 分布剪枝的阈值设定,如何避免过度剪枝导致信息丢失。这些参数和机制的选择直接影响DARE的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DARE在AIME 2024和AMC等具有挑战性的推理基准上显著优于现有方法。在AIME 2024上,DARE实现了25.3%的相对改进,在AMC上实现了5.3%的相对改进。这些结果证明了DARE在提升LLM自提升效果方面的有效性,以及其在复杂推理任务中的优越性能。
🎯 应用场景
DARE方法可应用于各种需要LLM进行自我改进的场景,例如问答系统、代码生成、文本摘要等。通过更准确的奖励估计,DARE能够提升LLM在这些任务上的性能和鲁棒性,降低对人工标注数据的依赖,实现更高效的自监督学习。未来,DARE有望成为TTRL领域的重要组成部分,推动LLM在更广泛的应用中实现自主学习和持续提升。
📄 摘要(原文)
Test-time reinforcement learning (TTRL) enables large language models (LLMs) to self-improve on unlabeled inputs, but its effectiveness critically depends on how reward signals are estimated without ground-truth supervision. Most existing TTRL methods rely on majority voting (MV) over rollouts to produce deterministic rewards, implicitly assuming that the majority rollout provides a reliable learning signal. We show that this assumption is fragile: MV reduces the rollout distribution into a single outcome, discarding information about non-majority but correct actions candidates, and yields systematically biased reward estimates. To address this, we propose Distribution-AwareReward Estimation (DARE), which shifts reward estimation from a single majority outcome to the full empirical rollout distribution. DARE further augments this distribution-based reward with an exploration bonus and a distribution pruning mechanism for non-majority rollout exploration and reward denoise, yielding a more informative and robust reward estimation. Extensive experiments on challenging reasoning benchmarks show that DARE improves optimization stability and final performance over recent baselines, achieving relative improvements of 25.3% on challenging AIME 2024 and 5.3% on AMC.