TTRL: Test-Time Reinforcement Learning
作者: Yuxin Zuo, Kaiyan Zhang, Li Sheng, Shang Qu, Ganqu Cui, Xuekai Zhu, Haozhan Li, Yuchen Zhang, Xinwei Long, Ermo Hua, Biqing Qi, Youbang Sun, Zhiyuan Ma, Lifan Yuan, Ning Ding, Bowen Zhou
分类: cs.CL, cs.LG
发布日期: 2025-04-22 (更新: 2025-06-30)
🔗 代码/项目: GITHUB
💡 一句话要点
提出TTRL:一种无需标签的测试时强化学习方法,用于提升大语言模型推理能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 测试时强化学习 大语言模型 无监督学习 推理任务 奖励函数
📋 核心要点
- 现有方法在无标签数据上训练LLM进行推理时,难以准确估计奖励,阻碍了强化学习的应用。
- TTRL利用测试时缩放策略(如多数投票)生成伪奖励信号,驱动LLM在推理过程中进行强化学习。
- 实验表明,TTRL在多个任务和模型上均能显著提升性能,例如在AIME 2024上提升Qwen-2.5-Math-7B的pass@1性能211%。
📝 摘要(中文)
本文研究了在大语言模型(LLM)中,针对推理任务,在没有显式标签的数据上进行强化学习(RL)的问题。该问题的核心挑战在于推理过程中奖励的估计,因为无法访问ground-truth信息。尽管这种设置看起来难以实现,但我们发现测试时缩放(TTS)中的常见做法,如多数投票,可以产生出人意料的有效奖励,适用于驱动RL训练。本文介绍了一种新颖的测试时强化学习方法(TTRL),用于在无标签数据上使用RL训练LLM。TTRL通过利用预训练模型中的先验知识,使LLM能够自我进化。实验表明,TTRL能够持续提高各种任务和模型的性能。值得注意的是,TTRL在AIME 2024上将Qwen-2.5-Math-7B的pass@1性能提高了约211%,而仅使用了无标签的测试数据。此外,尽管TTRL仅受maj@n指标的监督,但TTRL已证明其性能始终超过初始模型maj@n的上限,并接近直接在带有ground-truth标签的测试数据上训练的模型的性能。我们的实验结果验证了TTRL在各种任务中的普遍有效性,并突出了TTRL在更广泛的任务和领域中的潜力。
🔬 方法详解
问题定义:论文旨在解决大语言模型在推理任务中,缺乏标注数据时如何进行强化学习的问题。现有方法依赖于人工标注或复杂的奖励函数设计,成本高昂且难以泛化。因此,如何在无标签数据上有效训练LLM,提升其推理能力,是一个重要的挑战。
核心思路:论文的核心思路是利用测试时缩放(TTS)策略,例如多数投票,来生成伪奖励信号。通过对模型多次采样,并根据多数投票结果判断答案的正确性,从而为强化学习提供可用的奖励。这种方法无需人工标注,能够充分利用预训练模型的先验知识,实现LLM的自我进化。
技术框架:TTRL的整体框架包括以下几个主要阶段:1) 使用预训练的LLM对无标签测试数据进行推理,生成多个候选答案。2) 使用测试时缩放策略(如多数投票)对候选答案进行聚合,生成伪标签。3) 基于伪标签计算奖励信号。4) 使用强化学习算法(如策略梯度)更新LLM的参数,使其能够更好地生成符合伪标签的答案。
关键创新:TTRL的关键创新在于将测试时缩放与强化学习相结合,提出了一种无需人工标注的LLM训练方法。与传统的强化学习方法相比,TTRL能够直接在无标签数据上进行训练,降低了训练成本,提高了模型的泛化能力。此外,TTRL能够利用预训练模型的先验知识,实现LLM的自我进化。
关键设计:TTRL的关键设计包括:1) 奖励函数的选择:论文使用多数投票的结果作为奖励信号,鼓励模型生成与多数投票结果一致的答案。2) 强化学习算法的选择:论文使用策略梯度算法更新LLM的参数,使其能够更好地生成符合奖励信号的答案。3) 采样次数的选择:论文通过实验确定了合适的采样次数,以保证多数投票结果的准确性。
🖼️ 关键图片
📊 实验亮点
TTRL在多个任务和模型上均取得了显著的性能提升。例如,在AIME 2024数学竞赛数据集上,TTRL将Qwen-2.5-Math-7B模型的pass@1性能提高了约211%,且仅使用了无标签的测试数据。此外,TTRL的性能始终超过初始模型maj@n的上限,并接近直接在带有ground-truth标签的测试数据上训练的模型的性能。
🎯 应用场景
TTRL具有广泛的应用前景,可应用于各种需要大语言模型进行推理的任务,例如数学问题求解、代码生成、文本摘要等。该方法尤其适用于缺乏标注数据的场景,能够降低训练成本,提高模型的泛化能力。未来,TTRL有望成为一种通用的LLM训练方法,推动人工智能技术的发展。
📄 摘要(原文)
This paper investigates Reinforcement Learning (RL) on data without explicit labels for reasoning tasks in Large Language Models (LLMs). The core challenge of the problem is reward estimation during inference while not having access to ground-truth information. While this setting appears elusive, we find that common practices in Test-Time Scaling (TTS), such as majority voting, yield surprisingly effective rewards suitable for driving RL training. In this work, we introduce Test-Time Reinforcement Learning (TTRL), a novel method for training LLMs using RL on unlabeled data. TTRL enables self-evolution of LLMs by utilizing the priors in the pre-trained models. Our experiments demonstrate that TTRL consistently improves performance across a variety of tasks and models. Notably, TTRL boosts the pass@1 performance of Qwen-2.5-Math-7B by approximately 211% on the AIME 2024 with only unlabeled test data. Furthermore, although TTRL is only supervised by the maj@n metric, TTRL has demonstrated performance to consistently surpass the upper limit of the initial model maj@n, and approach the performance of models trained directly on test data with ground-truth labels. Our experimental findings validate the general effectiveness of TTRL across various tasks and highlight TTRL's potential for broader tasks and domains. GitHub: https://github.com/PRIME-RL/TTRL