Thinking-Based Non-Thinking: Solving the Reward Hacking Problem in Training Hybrid Reasoning Models via Reinforcement Learning
作者: Siyuan Gan, Jiaheng Liu, Boyan Wang, Tianpei Yang, Runqing Miao, Yuyao Zhang, Fanyu Meng, Junlan Feng, Linjian Meng, Jing Huo, Yang Gao
分类: cs.AI
发布日期: 2026-01-08
💡 一句话要点
提出Thinking-Based Non-Thinking方法,解决混合推理模型强化学习训练中的奖励欺骗问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 混合推理模型 强化学习 奖励欺骗 思维链 token使用量 数学问题求解 模型训练 非思考推理
📋 核心要点
- 现有混合推理模型依赖强化学习决定是否进行思考,但存在奖励欺骗问题,导致模型训练偏差。
- TNT方法利用思考过程的解信息,动态调整非思考响应的token限制,避免了高成本的监督微调。
- 实验表明,TNT在降低token使用量约50%的同时,显著提升了准确性,实现了效率与精度的平衡。
📝 摘要(中文)
大型推理模型(LRMs)因其卓越的性能而备受关注。然而,它们的性能主要源于思考,即长的思维链(CoT),这显著增加了计算开销。为了解决过度思考问题,现有工作侧重于使用强化学习(RL)来训练混合推理模型,该模型基于查询的复杂性自动决定是否进行思考。不幸的是,使用RL会遭受奖励欺骗问题,例如,模型进行了思考但被判断为没有这样做,从而导致不正确的奖励。为了缓解这个问题,现有工作要么采用监督微调(SFT),这会产生高昂的计算成本,要么对非思考响应强制执行统一的token限制,这只能有限地缓解问题。在本文中,我们提出了基于思考的非思考(TNT)。它不采用SFT,并通过利用来自使用思考的响应的解决方案组件的信息,为各种查询的非思考响应设置不同的最大token使用量。在五个数学基准上的实验表明,与DeepSeek-R1-Distill-Qwen-1.5B/7B和DeepScaleR-1.5B相比,TNT减少了约50%的token使用量,同时显著提高了准确性。事实上,TNT在所有测试方法中实现了准确性和效率之间的最佳权衡。此外,在所有测试数据集中,TNT的被归类为不使用思考的响应中,奖励欺骗问题的概率保持在10%以下。
🔬 方法详解
问题定义:论文旨在解决混合推理模型在强化学习训练过程中出现的奖励欺骗(reward hacking)问题。具体来说,模型在应该进行“思考”(即生成CoT)时却选择了“非思考”路径,或者反之,但由于奖励机制的缺陷,模型获得了不正确的奖励,从而导致训练过程中的偏差和性能下降。现有方法要么采用计算成本高的监督微调(SFT),要么对非思考响应施加统一的token限制,效果有限。
核心思路:TNT(Thinking-Based Non-Thinking)的核心思路是利用“思考”过程产生的信息来指导“非思考”过程。具体来说,通过分析“思考”路径下生成的答案,来动态地调整“非思考”路径允许的最大token数量。这样做的目的是让“非思考”路径能够根据问题的难度和所需的信息量,生成更合理和准确的答案,从而减少奖励欺骗的发生。
技术框架:TNT方法主要包含以下几个阶段:1) 使用大型推理模型(LRM)生成“思考”路径的答案;2) 从“思考”路径的答案中提取关键信息,例如答案的长度或复杂程度;3) 基于提取的信息,动态地设置“非思考”路径允许的最大token数量;4) 使用强化学习训练混合推理模型,使其能够根据问题的复杂程度,自动选择“思考”或“非思考”路径。
关键创新:TNT的关键创新在于它避免了使用监督微调(SFT),而是通过分析“思考”路径的输出来指导“非思考”路径,从而更有效地缓解了奖励欺骗问题。与现有方法强制执行统一token限制不同,TNT能够根据不同问题的特点,动态地调整token限制,从而提高了模型的灵活性和适应性。
关键设计:TNT的关键设计包括:1) 如何从“思考”路径的答案中提取有效的信息,例如使用启发式方法或机器学习模型;2) 如何将提取的信息转化为“非思考”路径的token限制,例如使用线性函数或非线性函数;3) 如何设计强化学习的奖励函数,使其能够更准确地评估模型的行为,并减少奖励欺骗的发生。
📊 实验亮点
实验结果表明,TNT方法在五个数学基准测试中,相比DeepSeek-R1-Distill-Qwen-1.5B/7B和DeepScaleR-1.5B,token使用量减少了约50%,同时显著提高了准确性。此外,TNT方法在被分类为不使用思考的响应中,奖励欺骗问题的概率保持在10%以下,表明该方法能够有效缓解奖励欺骗问题,并在准确性和效率之间实现了最佳权衡。
🎯 应用场景
TNT方法可应用于各种需要高效推理的场景,例如数学问题求解、代码生成、知识问答等。通过降低计算开销和提高推理准确性,TNT能够提升智能助手和自动化系统的性能,使其能够更快速、更准确地解决复杂问题。未来,该方法有望扩展到其他类型的混合模型训练中,例如结合了符号推理和神经推理的模型。
📄 摘要(原文)
Large reasoning models (LRMs) have attracted much attention due to their exceptional performance. However, their performance mainly stems from thinking, a long Chain of Thought (CoT), which significantly increase computational overhead. To address this overthinking problem, existing work focuses on using reinforcement learning (RL) to train hybrid reasoning models that automatically decide whether to engage in thinking or not based on the complexity of the query. Unfortunately, using RL will suffer the the reward hacking problem, e.g., the model engages in thinking but is judged as not doing so, resulting in incorrect rewards. To mitigate this problem, existing works either employ supervised fine-tuning (SFT), which incurs high computational costs, or enforce uniform token limits on non-thinking responses, which yields limited mitigation of the problem. In this paper, we propose Thinking-Based Non-Thinking (TNT). It does not employ SFT, and sets different maximum token usage for responses not using thinking across various queries by leveraging information from the solution component of the responses using thinking. Experiments on five mathematical benchmarks demonstrate that TNT reduces token usage by around 50% compared to DeepSeek-R1-Distill-Qwen-1.5B/7B and DeepScaleR-1.5B, while significantly improving accuracy. In fact, TNT achieves the optimal trade-off between accuracy and efficiency among all tested methods. Additionally, the probability of reward hacking problem in TNT's responses, which are classified as not using thinking, remains below 10% across all tested datasets.