Apriel-1.5-OpenReasoner: RL Post-Training for General-Purpose and Efficient Reasoning

📄 arXiv: 2604.02007 📥 PDF

作者: Rafael Pardinas, Ehsan Kamalloo, David Vazquez, Alexandre Drouin

分类: cs.LG

发布日期: 2026-04-07


💡 一句话要点

提出Apriel-1.5-OpenReasoner,通过强化学习后训练提升通用推理能力和效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 通用推理 语言模型 领域自适应 效率优化

📋 核心要点

  1. 现有通用推理模型训练方法缺乏透明度,领域混合和优化面临挑战,推理成本高昂。
  2. Apriel-1.5-OpenReasoner采用强化学习后训练,引入自适应领域采样和难度感知长度惩罚。
  3. 实验表明,该模型在多个基准测试中超越基线模型,并显著降低推理所需的token数量。

📝 摘要(中文)

本文提出了Apriel-1.5-OpenReasoner,一个基于150亿参数的开源LLM Apriel-Base,通过可验证奖励的强化学习(RLVR)进行多领域后训练的模型。该模型在数学、代码生成、指令跟随、逻辑谜题和函数调用五个领域使用公共数据集进行训练,并公开了完整的训练流程。为了解决不同领域在rollout长度、问题难度和样本效率上的差异,本文引入了一种自适应领域采样机制,以保持目标领域比例。此外,还提出了一种难度感知的长度惩罚,无需额外训练开销,即可鼓励模型对难题进行更长的推理,对简单问题进行更短的推理。Apriel-1.5-OpenReasoner在严格的16K token输出预算下训练,能够泛化到32K token的推理,并在AIME 2025、GPQA、MMLU-Pro和LiveCodeBench上优于Apriel-Base,同时产生30-50%更短的推理轨迹。该模型在更低的token成本下匹配了同等规模的强大开源模型,从而推动了准确率与token预算的帕累托前沿。

🔬 方法详解

问题定义:现有通用推理模型,特别是基于强化学习训练的模型,存在训练流程不透明、领域混合优化困难以及推理成本高昂的问题。不同领域在rollout长度、问题难度和样本效率上存在显著差异,导致联合优化困难。此外,模型生成的推理链越长,推理成本和延迟越高,这限制了其在实际应用中的部署。

核心思路:本文的核心思路是通过强化学习对预训练的语言模型进行后训练,并引入自适应领域采样和难度感知的长度惩罚,从而提高模型的通用推理能力和效率。自适应领域采样旨在解决不同领域数据分布不均的问题,难度感知的长度惩罚则旨在鼓励模型根据问题的难度调整推理长度。

技术框架:Apriel-1.5-OpenReasoner的训练框架主要包括以下几个阶段:首先,使用Apriel-Base(一个15B参数的开源LLM)作为基础模型。然后,使用强化学习对该模型进行后训练,训练数据来自五个领域:数学、代码生成、指令跟随、逻辑谜题和函数调用。在训练过程中,使用自适应领域采样机制来平衡不同领域的数据分布,并使用难度感知的长度惩罚来控制推理长度。最后,对训练好的模型进行评估,并在多个基准测试中进行性能比较。

关键创新:本文最重要的技术创新点在于提出了自适应领域采样和难度感知的长度惩罚。自适应领域采样能够根据不同领域的rollout动态调整采样概率,从而保持目标领域比例。难度感知的长度惩罚能够根据问题的难度动态调整长度惩罚系数,从而鼓励模型对难题进行更长的推理,对简单问题进行更短的推理。与现有方法相比,这些创新点能够显著提高模型的通用推理能力和效率。

关键设计:自适应领域采样通过动态调整每个领域的采样概率来实现,具体来说,根据每个领域rollout的平均长度和目标比例,计算出一个权重,然后使用该权重来调整采样概率。难度感知的长度惩罚通过引入一个难度估计器来实现,该估计器根据问题的特征预测问题的难度,然后根据难度调整长度惩罚系数。损失函数包括标准的强化学习损失函数和长度惩罚项,长度惩罚项的系数由难度估计器动态调整。

📊 实验亮点

Apriel-1.5-OpenReasoner在AIME 2025、GPQA、MMLU-Pro和LiveCodeBench等基准测试中优于Apriel-Base,并且推理轨迹缩短了30-50%。该模型在更低的token成本下匹配了同等规模的强大开源模型,在准确率和token预算之间取得了更好的平衡。

🎯 应用场景

该研究成果可应用于各种需要通用推理能力的场景,例如智能助手、自动代码生成、数学问题求解等。通过提高推理效率和降低token成本,该模型有望在资源受限的环境中得到广泛应用,并推动人工智能在实际场景中的落地。

📄 摘要(原文)

Building general-purpose reasoning models using reinforcement learning with verifiable rewards (RLVR) across diverse domains has been widely adopted by frontier open-weight models. However, their training recipes and domain mixtures are often not disclosed. Joint optimization across domains poses significant challenges: domains vary widely in rollout length, problem difficulty and sample efficiency. Further, models with long chain-of-thought traces increase inference cost and latency, making efficiency critical for practical deployment. We present Apriel-1.5-OpenReasoner, trained with a fully reproducible multi-domain RL post-training recipe on Apriel-Base, a 15B-parameter open-weight LLM, across five domains using public datasets: mathematics, code generation, instruction following, logical puzzles and function calling. We introduce an adaptive domain sampling mechanism that preserves target domain ratios despite heterogeneous rollout dynamics, and a difficulty-aware extension of the standard length penalty that, with no additional training overhead, encourages longer reasoning for difficult problems and shorter traces for easy ones. Trained with a strict 16K-token output budget, Apriel-1.5-OpenReasoner generalizes to 32K tokens at inference and improves over Apriel-Base on AIME 2025, GPQA, MMLU-Pro, and LiveCodeBench while producing 30-50% shorter reasoning traces. It matches strong open-weight models of similar size at lower token cost, thereby pushing the Pareto frontier of accuracy versus token budget.