JustRL: Scaling a 1.5B LLM with a Simple RL Recipe
作者: Bingxiang He, Zekai Qu, Zeyuan Liu, Yinghao Chen, Yuxin Zuo, Cheng Qian, Kaiyan Zhang, Weize Chen, Chaojun Xiao, Ganqu Cui, Ning Ding, Zhiyuan Liu
分类: cs.CL
发布日期: 2025-12-18
备注: 12 pages, 3 figures
💡 一句话要点
JustRL:通过简单强化学习方法扩展15亿参数大语言模型,实现卓越推理性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大语言模型 数学推理 单阶段训练 极简方法
📋 核心要点
- 现有大语言模型强化学习方法过于复杂,包含多阶段训练和动态超参数调整等,增加了训练成本。
- JustRL 采用单阶段训练和固定超参数,简化了训练流程,降低了计算成本,同时保持了卓越的性能。
- 实验表明,JustRL 在数学推理任务上取得了 SOTA 性能,且计算量更少,证明了简单方法的有效性。
📝 摘要(中文)
针对大语言模型强化学习领域日益增长的复杂性,如多阶段训练流程、动态超参数调整和课程学习策略,本文提出了一个根本问题:这种复杂性是必要的吗?我们提出了JustRL,一种极简方法,使用单阶段训练和固定超参数,在两个15亿参数的推理模型上实现了最先进的性能(在九个数学基准测试中平均准确率分别为54.9%和64.3%),同时计算量比复杂方法少2倍。相同的超参数无需调整即可在两个模型之间迁移,并且训练过程表现出平滑、单调的改进,超过4000步,没有通常需要干预的崩溃或停滞。至关重要的是,消融实验表明,添加诸如显式长度惩罚和鲁棒验证器之类的“标准技巧”可能会因崩溃探索而降低性能。这些结果表明,该领域可能正在增加复杂性来解决随着稳定、规模化的基线而消失的问题。我们发布了我们的模型和代码,以建立一个简单的、经过验证的社区基线。
🔬 方法详解
问题定义:现有大语言模型强化学习方法通常采用复杂的多阶段训练流程、动态超参数调整以及课程学习策略。这些方法虽然在一定程度上提升了模型性能,但也带来了更高的计算成本和更复杂的调参过程,使得研究人员难以复现和进一步改进。
核心思路:JustRL 的核心思路是化繁为简,通过单阶段训练和固定的超参数设置,构建一个简单而有效的强化学习框架。作者认为,在模型规模足够大的情况下,复杂的训练技巧可能并非必要,反而可能引入不稳定性,阻碍模型的探索。
技术框架:JustRL 的整体框架非常简洁,主要包含以下几个步骤:1) 使用预训练的大语言模型作为基础模型;2) 定义奖励函数,鼓励模型生成正确的答案;3) 使用强化学习算法(例如 PPO)对模型进行单阶段训练,目标是最大化累积奖励;4) 在推理阶段,使用训练好的模型生成答案。
关键创新:JustRL 最重要的创新在于其极简的设计理念。与现有方法相比,JustRL 避免了复杂的多阶段训练流程和动态超参数调整,而是采用单阶段训练和固定的超参数设置。这种设计不仅降低了计算成本,也使得训练过程更加稳定和可控。
关键设计:JustRL 的关键设计包括:1) 使用 1.5B 参数的大语言模型作为基础模型;2) 采用简单的奖励函数,例如正确答案奖励 1 分,错误答案奖励 0 分;3) 使用 PPO 算法进行训练,并设置固定的学习率、批量大小等超参数。作者还进行了消融实验,发现添加显式长度惩罚和鲁棒验证器等“标准技巧”反而会降低性能,这进一步验证了简单方法的有效性。
🖼️ 关键图片
📊 实验亮点
JustRL 在两个 1.5B 参数的推理模型上实现了最先进的性能,在九个数学基准测试中平均准确率分别达到 54.9% 和 64.3%,同时计算量比复杂方法少 2 倍。消融实验表明,添加显式长度惩罚和鲁棒验证器等“标准技巧”反而会降低性能。
🎯 应用场景
JustRL 的研究成果可以应用于各种需要大语言模型进行推理和决策的场景,例如数学问题求解、代码生成、对话系统等。该方法降低了训练成本,使得更多研究者和开发者能够训练出高性能的大语言模型,推动人工智能技术的普及和应用。
📄 摘要(原文)
Recent advances in reinforcement learning for large language models have converged on increasing complexity: multi-stage training pipelines, dynamic hyperparameter schedules, and curriculum learning strategies. This raises a fundamental question: \textbf{Is this complexity necessary?} We present \textbf{JustRL}, a minimal approach using single-stage training with fixed hyperparameters that achieves state-of-the-art performance on two 1.5B reasoning models (54.9\% and 64.3\% average accuracy across nine mathematical benchmarks) while using 2$\times$ less compute than sophisticated approaches. The same hyperparameters transfer across both models without tuning, and training exhibits smooth, monotonic improvement over 4,000+ steps without the collapses or plateaus that typically motivate interventions. Critically, ablations reveal that adding ``standard tricks'' like explicit length penalties and robust verifiers may degrade performance by collapsing exploration. These results suggest that the field may be adding complexity to solve problems that disappear with a stable, scaled-up baseline. We release our models and code to establish a simple, validated baseline for the community.