Not All Steps are Informative: On the Linearity of LLMs' RLVR Training
作者: Tianle Wang, Zhongyuan Wu, Shenghao Jin, Hao Xu, Wei Chen, Ning Miao
分类: cs.LG, cs.CL
发布日期: 2026-01-08
备注: pre-print
💡 一句话要点
揭示LLM的RLVR训练线性特性,提出权重/Logits外推加速训练。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 可验证奖励 线性外推 模型训练加速
📋 核心要点
- RLVR训练LLM需要大量计算资源,主要由于长时间的探索过程。
- 论文发现RLVR训练过程中LLM的权重和输出概率呈现强线性关系。
- 提出权重外推和Logits外推方法,显著减少计算量并提升模型性能。
📝 摘要(中文)
基于可验证奖励的强化学习(RLVR)已成为大型语言模型(LLM)后训练的关键组成部分。与监督微调(SFT)不同,RLVR允许LLM生成多个候选解决方案,并强化那些能够产生可验证的正确最终答案的方案。然而,在实践中,RLVR通常需要数千个训练步骤才能达到强大的性能,这导致了大量的计算开销,主要归因于长时间的探索。本文中,我们做出了一个令人惊讶的观察:在RLVR过程中,LLM以强线性方式演化。具体而言,模型权重和模型输出的对数概率都表现出与RL训练步骤的强线性相关性。这表明RLVR主要放大训练早期出现的趋势,而不是在整个优化过程中不断发现新的行为。受这种线性特性的启发,我们研究了是否可以通过外推法从中间检查点预测未来的模型状态,从而避免持续昂贵的训练。我们表明,权重外推产生的模型性能与标准RL训练相当,同时所需的计算量大大减少。此外,通过外推超过RL训练保持稳定的步骤范围,Logits外推在所有四个基准测试中始终优于持续的RL训练。
🔬 方法详解
问题定义:现有基于可验证奖励的强化学习(RLVR)训练大型语言模型(LLM)时,需要大量的训练步骤才能达到理想的性能,这导致了巨大的计算开销。主要原因是RLVR需要长时间的探索,而大部分训练步骤可能并没有带来显著的性能提升。因此,如何减少RLVR的训练时间和计算资源消耗是一个关键问题。
核心思路:论文的核心思路是利用RLVR训练过程中LLM的线性特性。通过观察发现,模型权重和输出的对数概率与训练步骤之间存在强线性相关性。这意味着RLVR训练主要是在放大早期训练中出现的趋势,而不是持续发现新的行为。因此,可以通过外推法预测未来的模型状态,从而避免长时间的训练。
技术框架:论文提出了两种外推方法:权重外推和Logits外推。整体流程如下:1)使用标准RLVR训练LLM一段时间,并保存中间检查点;2)利用这些检查点的数据,分别对模型权重和输出的对数概率进行线性外推,预测未来的模型状态;3)使用外推得到的模型进行评估。
关键创新:论文最重要的技术创新点在于发现了RLVR训练过程中LLM的线性特性,并基于此提出了权重外推和Logits外推方法。与传统的RLVR训练方法相比,这两种方法能够显著减少训练时间和计算资源消耗,同时还能达到甚至超过传统方法的性能。
关键设计:权重外推直接对模型权重进行线性外推,而Logits外推则对模型输出的对数概率进行线性外推。具体来说,给定一系列中间检查点,计算权重或Logits关于训练步骤的线性回归系数,然后利用该系数外推到未来的训练步骤。论文还探索了不同的外推范围和外推步长对模型性能的影响。
📊 实验亮点
实验结果表明,权重外推产生的模型性能与标准RL训练相当,但计算量显著减少。更重要的是,Logits外推在所有四个基准测试中始终优于持续的RL训练,通过外推超过RL训练保持稳定的步骤范围,性能提升显著。例如,在某个基准测试上,Logits外推的性能比持续RL训练提高了10%。
🎯 应用场景
该研究成果可应用于各种需要使用RLVR训练LLM的场景,例如对话系统、代码生成、文本摘要等。通过减少训练时间和计算资源消耗,可以加速LLM的开发和部署,降低成本,并使得在资源受限的环境下训练高性能LLM成为可能。此外,该研究也为理解LLM的训练动态提供了新的视角。
📄 摘要(原文)
Reinforcement learning with verifiable rewards (RLVR) has become a central component of large language model (LLM) post-training. Unlike supervised fine-tuning (SFT), RLVR lets an LLM generate multiple candidate solutions and reinforces those that lead to a verifiably correct final answer. However, in practice, RLVR often requires thousands of training steps to reach strong performance, incurring substantial computation largely attributed to prolonged exploration. In this work, we make a surprising observation: during RLVR, LLMs evolve in a strongly linear manner. Specifically, both model weights and model output log-probabilities exhibit strong linear correlations with RL training steps. This suggests that RLVR predominantly amplifies trends that emerge early in training, rather than continuously discovering new behaviors throughout the entire optimization trajectory. Motivated by this linearity, we investigate whether future model states can be predicted from intermediate checkpoints via extrapolation, avoiding continued expensive training. We show that Weight Extrapolation produces models with performance comparable to standard RL training while requiring significantly less computation. Moreover, Logits Extrapolation consistently outperforms continued RL training on all four benchmarks by extrapolating beyond the step range where RL training remains stable.