Thinking-Based Non-Thinking: Solving the Reward Hacking Problem in Training Hybrid Reasoning Models via Reinforcement Learning
作者: Siyuan Gan, Jiaheng Liu, Boyan Wang, Tianpei Yang, Runqing Miao, Yuyao Zhang, Fanyu Meng, Junlan Feng, Linjian Meng, Jing Huo, Yang Gao
分类: cs.AI
发布日期: 2026-01-08
💡 一句话要点
提出Thinking-Based Non-Thinking方法,解决混合推理模型强化学习训练中的奖励欺骗问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 混合推理模型 强化学习 奖励欺骗 思维链 token使用量
📋 核心要点
- 现有混合推理模型依赖强化学习决定是否进行思考,但存在奖励欺骗问题,导致模型训练偏差。
- TNT方法通过利用思考响应中的信息,为非思考响应设置自适应的token限制,避免了监督微调的高成本。
- 实验表明,TNT在降低token使用量约50%的同时,显著提高了准确性,并在准确性和效率之间取得了最佳平衡。
📝 摘要(中文)
大型推理模型(LRMs)因其卓越的性能而备受关注。然而,它们的性能主要源于思考,即长的思维链(CoT),这显著增加了计算开销。为了解决过度思考问题,现有工作侧重于使用强化学习(RL)来训练混合推理模型,使其能够根据查询的复杂性自动决定是否进行思考。不幸的是,使用RL会遇到奖励欺骗问题,例如,模型进行了思考但被判断为没有思考,从而导致不正确的奖励。为了缓解这个问题,现有工作要么采用监督微调(SFT),这会产生高昂的计算成本,要么对非思考响应强制执行统一的token限制,这只能有限地缓解问题。在本文中,我们提出了Thinking-Based Non-Thinking(TNT)。它不采用SFT,而是通过利用来自使用思考的响应的解决方案组件的信息,为各种查询的非思考响应设置不同的最大token使用量。在五个数学基准上的实验表明,与DeepSeek-R1-Distill-Qwen-1.5B/7B和DeepScaleR-1.5B相比,TNT减少了约50%的token使用量,同时显著提高了准确性。事实上,TNT在所有测试方法中实现了准确性和效率之间的最佳权衡。此外,在所有测试数据集中,TNT的被分类为不使用思考的响应中,奖励欺骗问题的概率保持在10%以下。
🔬 方法详解
问题定义:论文旨在解决混合推理模型在强化学习训练过程中遇到的奖励欺骗问题。现有方法要么采用计算成本高的监督微调(SFT),要么对非思考响应强制执行统一的token限制,都无法有效解决该问题。奖励欺骗指的是模型实际上进行了思考,但被错误地判断为没有思考,从而导致强化学习算法接收到错误的奖励信号,进而影响模型的训练效果。
核心思路:TNT的核心思路是利用模型在进行“思考”时产生的解决方案信息,来指导“非思考”状态下的token使用量。具体来说,TNT会分析“思考”路径下的输出,从中提取有用的信息,并以此为依据,动态地调整“非思考”路径下的最大token数量。这样做的目的是让模型在“非思考”状态下也能生成足够高质量的答案,同时避免过度生成无意义的token,从而减少计算开销。
技术框架:TNT方法主要包含两个阶段:首先,模型使用“思考”模式生成答案,并提取解决方案组件的信息。然后,基于这些信息,为“非思考”模式设置自适应的最大token使用量。在强化学习训练过程中,模型根据查询的复杂程度,自动选择“思考”或“非思考”模式。奖励函数的设计需要考虑模型的准确性和效率,鼓励模型在保证准确性的前提下,尽可能地减少token使用量。
关键创新:TNT的关键创新在于它避免了使用监督微调(SFT),而是通过分析“思考”模式下的输出,来指导“非思考”模式下的token使用量。这与现有方法强制执行统一token限制的做法不同,TNT能够根据不同的查询,动态地调整token使用量,从而更好地平衡准确性和效率。
关键设计:TNT的关键设计在于如何从“思考”模式的输出中提取有用的信息,并将其转化为“非思考”模式下的token限制。具体的实现细节可能包括使用特定的神经网络结构来分析“思考”模式的输出,并根据分析结果,动态地调整“非思考”模式下的最大token数量。损失函数的设计需要同时考虑模型的准确性和效率,例如,可以使用一个加权损失函数,其中准确性损失和token使用量损失的权重可以根据实际情况进行调整。
📊 实验亮点
实验结果表明,TNT方法在五个数学基准测试中,相比于DeepSeek-R1-Distill-Qwen-1.5B/7B和DeepScaleR-1.5B,token使用量减少了约50%,同时显著提高了准确性。TNT在所有测试方法中实现了准确性和效率之间的最佳权衡。此外,TNT的被分类为不使用思考的响应中,奖励欺骗问题的概率保持在10%以下。
🎯 应用场景
TNT方法可应用于各种需要高效推理的场景,例如数学问题求解、代码生成、知识问答等。通过减少token使用量,可以显著降低计算成本,提高推理速度,从而使大型推理模型能够部署在资源受限的设备上。此外,TNT方法还可以用于提高模型的鲁棒性,减少模型受到对抗攻击的影响。
📄 摘要(原文)
Large reasoning models (LRMs) have attracted much attention due to their exceptional performance. However, their performance mainly stems from thinking, a long Chain of Thought (CoT), which significantly increase computational overhead. To address this overthinking problem, existing work focuses on using reinforcement learning (RL) to train hybrid reasoning models that automatically decide whether to engage in thinking or not based on the complexity of the query. Unfortunately, using RL will suffer the the reward hacking problem, e.g., the model engages in thinking but is judged as not doing so, resulting in incorrect rewards. To mitigate this problem, existing works either employ supervised fine-tuning (SFT), which incurs high computational costs, or enforce uniform token limits on non-thinking responses, which yields limited mitigation of the problem. In this paper, we propose Thinking-Based Non-Thinking (TNT). It does not employ SFT, and sets different maximum token usage for responses not using thinking across various queries by leveraging information from the solution component of the responses using thinking. Experiments on five mathematical benchmarks demonstrate that TNT reduces token usage by around 50% compared to DeepSeek-R1-Distill-Qwen-1.5B/7B and DeepScaleR-1.5B, while significantly improving accuracy. In fact, TNT achieves the optimal trade-off between accuracy and efficiency among all tested methods. Additionally, the probability of reward hacking problem in TNT's responses, which are classified as not using thinking, remains below 10% across all tested datasets.