Thinking-Free Policy Initialization Makes Distilled Reasoning Models More Effective and Efficient Reasoners
作者: Xin Xu, Cliveb AI, Kai Yang, Tianhao Chen, Yang Wang, Saiyong Yang, Can Yang
分类: cs.LG, cs.CL
发布日期: 2025-09-30 (更新: 2025-12-24)
💡 一句话要点
提出TFPI,加速RLVR训练,提升推理模型效率与性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 奖励学习 链式思维 策略初始化 模型蒸馏
📋 核心要点
- RLVR解决复杂任务有效,但训练计算成本高昂,长上下文需求是主要瓶颈。
- TFPI通过ThinkFree操作显式丢弃思维内容,减少token使用,优化训练输入。
- 实验表明,TFPI加速RL收敛,提升性能上限,并提高token利用效率。
📝 摘要(中文)
基于可验证奖励的强化学习(RLVR)能够有效解决复杂任务,但训练时需要极长的上下文长度,导致巨大的计算成本。多阶段训练虽然可以部分缓解这个问题,但从过短的上下文开始训练往往会导致不可逆转的性能下降,最终无法显著降低总体训练计算量。本文提出了一种简单而有效的RLVR改进方法——无思维策略初始化(TFPI),它连接了长链式思维(CoT)蒸馏和标准RLVR。TFPI采用简单的ThinkFree操作,通过直接添加来显式丢弃思维内容,以减少推理期间的token使用量。使用ThinkFree-adapted输入进行训练可以提高性能并降低token消耗,即使在原始的慢速思维模式下也是如此。在各种基准测试中进行的大量实验表明,TFPI加速了RL收敛,实现了更高的性能上限,并产生了更节省token的推理模型,而无需专门的奖励或复杂的训练设计。仅使用TFPI,我们训练了一个4B模型,使用不到4K H20小时,在AIME24上达到了89.0%的准确率,在LiveCodeBench上达到了65.5%的准确率。
🔬 方法详解
问题定义:RLVR在解决复杂推理任务时,需要极长的上下文长度,导致训练过程计算成本巨大。现有的多阶段训练方法尝试从较短的上下文入手,但往往会陷入局部最优,无法达到理想的性能,也无法有效降低计算成本。因此,如何在保证性能的前提下,降低RLVR的训练成本是一个关键问题。
核心思路:TFPI的核心思路是通过在训练初期引入“无思维”的策略初始化,引导模型更快地学习到有效的策略。具体来说,通过在输入中显式地添加标签,让模型在推理时可以跳过中间的思考步骤,从而减少token的使用量,并加速训练过程。这种方法类似于一种 curriculum learning 的思想,先让模型学习快速推理,再逐步引入复杂的思考过程。
技术框架:TFPI方法主要包含以下几个步骤:1) 在训练数据中,对部分样本进行修改,在输入序列中添加标签,表示“无思维”的推理路径。2) 使用修改后的数据进行RLVR训练,模型在训练过程中会学习到两种推理模式:一种是正常的“有思维”模式,另一种是快速的“无思维”模式。3) 在推理阶段,可以根据需要选择使用哪种推理模式。如果需要快速推理,则可以使用“无思维”模式,如果需要更准确的推理结果,则可以使用“有思维”模式。
关键创新:TFPI的关键创新在于引入了“无思维”的策略初始化,这与传统的RLVR方法不同,后者通常只关注如何优化“有思维”的推理过程。通过引入“无思维”模式,TFPI可以有效地减少token的使用量,并加速训练过程。此外,TFPI还提供了一种灵活的推理方式,可以根据需要在速度和准确性之间进行权衡。
关键设计:TFPI的关键设计在于ThinkFree操作,即在输入序列中添加标签。这个标签的作用是告诉模型,在推理时可以跳过中间的思考步骤,直接输出最终结果。具体实现时,可以在训练数据中随机选择一部分样本,并在这些样本的输入序列中添加标签。添加标签的比例可以根据实际情况进行调整。此外,还可以使用不同的奖励函数来鼓励模型学习“无思维”的推理模式。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TFPI在AIME24和LiveCodeBench等基准测试中取得了显著的性能提升。例如,使用TFPI训练的4B模型在AIME24上达到了89.0%的准确率,在LiveCodeBench上达到了65.5%的准确率,并且训练时间显著缩短,仅使用了不到4K H20小时。这些结果表明,TFPI是一种有效的RLVR改进方法,可以显著提高推理模型的效率和性能。
🎯 应用场景
TFPI方法可应用于各种需要复杂推理的场景,例如代码生成、数学问题求解、自然语言推理等。通过降低计算成本和提高推理效率,TFPI可以使这些应用在资源受限的环境中也能高效运行。此外,TFPI还可以用于开发更智能的对话系统,使其能够根据用户的需求,在速度和准确性之间进行权衡。
📄 摘要(原文)
Reinforcement Learning with Verifiable Reward (RLVR) effectively solves complex tasks but demands extremely long context lengths during training, leading to substantial computational costs. While multi-stage training can partially mitigate this, starting with overly short contexts often causes irreversible performance degradation, ultimately failing to reduce overall training compute significantly. In this paper, we introduce Thinking-Free Policy Initialization (TFPI), a simple yet effective adaptation to RLVR that bridges long Chain-of-Thought (CoT) distillation and standard RLVR. TFPI employs a simple ThinkFree operation, explicitly discarding the thinking content via a direct append, to reduce token usage during inference. Training with ThinkFree-adapted inputs improves performance and lowers token consumption, even in the original slow-thinking mode. Extensive experiments across various benchmarks have shown that TFPI accelerates RL convergence, achieves a higher performance ceiling, and yields more token-efficient reasoning models without specialized rewards or complex training designs. With TFPI only, we train a 4B model to reach 89.0% accuracy on AIME24 and 65.5% on LiveCodeBench using less than 4K H20 hours.