Thinking-Free Policy Initialization Makes Distilled Reasoning Models More Effective and Efficient Reasoners

作者: Xin Xu, Cliveb AI, Kai Yang, Tianhao Chen, Yang Wang, Saiyong Yang, Can Yang

分类: cs.LG, cs.CL

发布日期: 2025-09-30 (更新: 2025-12-24)

💡 一句话要点

提出TFPI，加速RLVR训练，提升推理模型效率与性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 奖励学习 链式思维 策略初始化 模型蒸馏

📋 核心要点

RLVR解决复杂任务有效，但训练计算成本高昂，长上下文需求是主要瓶颈。
TFPI通过ThinkFree操作显式丢弃思维内容，减少token使用，优化训练输入。
实验表明，TFPI加速RL收敛，提升性能上限，并提高token利用效率。

📝 摘要（中文）

基于可验证奖励的强化学习(RLVR)能够有效解决复杂任务，但训练时需要极长的上下文长度，导致巨大的计算成本。多阶段训练虽然可以部分缓解这个问题，但从过短的上下文开始训练往往会导致不可逆转的性能下降，最终无法显著降低总体训练计算量。本文提出了一种简单而有效的RLVR改进方法——无思维策略初始化(TFPI)，它连接了长链式思维(CoT)蒸馏和标准RLVR。TFPI采用简单的ThinkFree操作，通过直接添加来显式丢弃思维内容，以减少推理期间的token使用量。使用ThinkFree-adapted输入进行训练可以提高性能并降低token消耗，即使在原始的慢速思维模式下也是如此。在各种基准测试中进行的大量实验表明，TFPI加速了RL收敛，实现了更高的性能上限，并产生了更节省token的推理模型，而无需专门的奖励或复杂的训练设计。仅使用TFPI，我们训练了一个4B模型，使用不到4K H20小时，在AIME24上达到了89.0%的准确率，在LiveCodeBench上达到了65.5%的准确率。

🔬 方法详解

问题定义：RLVR在解决复杂推理任务时，需要极长的上下文长度，导致训练过程计算成本巨大。现有的多阶段训练方法尝试从较短的上下文入手，但往往会陷入局部最优，无法达到理想的性能，也无法有效降低计算成本。因此，如何在保证性能的前提下，降低RLVR的训练成本是一个关键问题。

核心思路：TFPI的核心思路是通过在训练初期引入“无思维”的策略初始化，引导模型更快地学习到有效的策略。具体来说，通过在输入中显式地添加标签，让模型在推理时可以跳过中间的思考步骤，从而减少token的使用量，并加速训练过程。这种方法类似于一种 curriculum learning 的思想，先让模型学习快速推理，再逐步引入复杂的思考过程。

技术框架：TFPI方法主要包含以下几个步骤：1) 在训练数据中，对部分样本进行修改，在输入序列中添加标签，表示“无思维”的推理路径。2) 使用修改后的数据进行RLVR训练，模型在训练过程中会学习到两种推理模式：一种是正常的“有思维”模式，另一种是快速的“无思维”模式。3) 在推理阶段，可以根据需要选择使用哪种推理模式。如果需要快速推理，则可以使用“无思维”模式，如果需要更准确的推理结果，则可以使用“有思维”模式。

关键创新：TFPI的关键创新在于引入了“无思维”的策略初始化，这与传统的RLVR方法不同，后者通常只关注如何优化“有思维”的推理过程。通过引入“无思维”模式，TFPI可以有效地减少token的使用量，并加速训练过程。此外，TFPI还提供了一种灵活的推理方式，可以根据需要在速度和准确性之间进行权衡。

关键设计：TFPI的关键设计在于ThinkFree操作，即在输入序列中添加标签。这个标签的作用是告诉模型，在推理时可以跳过中间的思考步骤，直接输出最终结果。具体实现时，可以在训练数据中随机选择一部分样本，并在这些样本的输入序列中添加标签。添加标签的比例可以根据实际情况进行调整。此外，还可以使用不同的奖励函数来鼓励模型学习“无思维”的推理模式。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TFPI在AIME24和LiveCodeBench等基准测试中取得了显著的性能提升。例如，使用TFPI训练的4B模型在AIME24上达到了89.0%的准确率，在LiveCodeBench上达到了65.5%的准确率，并且训练时间显著缩短，仅使用了不到4K H20小时。这些结果表明，TFPI是一种有效的RLVR改进方法，可以显著提高推理模型的效率和性能。

🎯 应用场景

TFPI方法可应用于各种需要复杂推理的场景，例如代码生成、数学问题求解、自然语言推理等。通过降低计算成本和提高推理效率，TFPI可以使这些应用在资源受限的环境中也能高效运行。此外，TFPI还可以用于开发更智能的对话系统，使其能够根据用户的需求，在速度和准确性之间进行权衡。

📄 摘要（原文）

Reinforcement Learning with Verifiable Reward (RLVR) effectively solves complex tasks but demands extremely long context lengths during training, leading to substantial computational costs. While multi-stage training can partially mitigate this, starting with overly short contexts often causes irreversible performance degradation, ultimately failing to reduce overall training compute significantly. In this paper, we introduce Thinking-Free Policy Initialization (TFPI), a simple yet effective adaptation to RLVR that bridges long Chain-of-Thought (CoT) distillation and standard RLVR. TFPI employs a simple ThinkFree operation, explicitly discarding the thinking content via a direct append, to reduce token usage during inference. Training with ThinkFree-adapted inputs improves performance and lowers token consumption, even in the original slow-thinking mode. Extensive experiments across various benchmarks have shown that TFPI accelerates RL convergence, achieves a higher performance ceiling, and yields more token-efficient reasoning models without specialized rewards or complex training designs. With TFPI only, we train a 4B model to reach 89.0% accuracy on AIME24 and 65.5% on LiveCodeBench using less than 4K H20 hours.

Thinking-Free Policy Initialization Makes Distilled Reasoning Models More Effective and Efficient Reasoners

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理