Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning
作者: Wenze Lin, Zhen Yang, Xitai Jiang, Pony Ma, Gao Huang
分类: cs.LG, cs.AI
发布日期: 2026-02-04
💡 一句话要点
提出T2T动态奖励框架,通过模拟人类学习动态提升LLM推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 奖励塑造 推理能力 动态奖励 人类学习 数学问题求解
📋 核心要点
- 现有基于可验证奖励的强化学习(RLVR)方法在增强LLM推理方面面临熵崩溃、过度冗长和探索不足等挑战。
- T2T框架模仿人类学习过程,通过在错误时鼓励探索(增厚)和正确时鼓励简洁(变薄)来优化奖励机制。
- 实验结果表明,T2T在数学基准测试中显著优于现有方法,提升了Qwen和Deepseek等模型的推理性能。
📝 摘要(中文)
本文提出了一种名为T2T(Thickening-to-Thinning)的动态奖励框架,旨在提升大型语言模型(LLM)的推理能力。该框架受到人类学习过程的启发,采用双阶段机制:在不正确的尝试中,T2T激励“增厚”(更长的轨迹)以扩大搜索空间并探索新的解决方案路径;在获得正确答案后,它转向“变薄”,施加长度惩罚以减少冗余,从而培养模型的信心并结晶推理能力。在Qwen系列和Deepseek模型上,针对数学基准(MATH-500、AIME、AMC)的大量实验表明,T2T显著优于标准GRPO和最新的基线方法,实现了卓越的性能。
🔬 方法详解
问题定义:现有基于可验证奖励的强化学习方法在提升LLM推理能力时,未能有效区分问题解决过程中所需的广泛搜索和掌握知识后所需的效率。这导致模型在探索难题时缺乏足够的动力,并且在已经掌握的知识上产生冗余的输出,影响了推理的效率和准确性。
核心思路:T2T的核心思路是模拟人类学习的动态过程,即在学习初期,鼓励广泛的探索和尝试,允许“试错”;而在掌握知识后,则鼓励简洁和高效的表达,避免冗余。通过这种“增厚-变薄”的动态调整,可以更好地引导LLM的学习过程,提升其推理能力。
技术框架:T2T框架包含两个主要阶段:增厚(Thickening)阶段和变薄(Thinning)阶段。在增厚阶段,当模型生成错误的答案时,T2T会给予奖励,鼓励模型生成更长的轨迹,探索更多的可能性。这有助于模型扩大搜索空间,发现新的解决方案路径。在变薄阶段,当模型生成正确的答案时,T2T会施加长度惩罚,抑制模型生成冗余的输出。这有助于模型巩固已掌握的知识,提高推理的效率和准确性。整体流程是根据模型的输出结果动态调整奖励函数,从而引导模型的学习方向。
关键创新:T2T的关键创新在于其动态奖励机制,它能够根据模型的学习状态自适应地调整奖励策略。与传统的静态奖励机制不同,T2T能够更好地适应模型的学习过程,从而更有效地提升模型的推理能力。这种动态调整的灵感来源于对人类学习过程的观察,使其更具合理性和有效性。
关键设计:T2T框架的关键设计在于如何平衡增厚和变薄两个阶段的奖励。具体的参数设置(例如,长度奖励/惩罚的系数)需要根据具体的任务和模型进行调整。损失函数的设计需要能够有效地引导模型在错误时进行探索,在正确时保持简洁。此外,如何有效地判断模型的输出是否正确也是一个重要的技术细节,这通常需要依赖于可验证的奖励信号。
🖼️ 关键图片
📊 实验亮点
实验结果表明,T2T框架在MATH-500、AIME和AMC等数学基准测试中显著优于标准GRPO和最新的基线方法。例如,在MATH-500数据集上,T2T框架的性能提升了X%,在AIME数据集上提升了Y%。这些结果表明,T2T框架能够有效地提升LLM的推理能力,尤其是在解决复杂问题时。
🎯 应用场景
T2T框架具有广泛的应用前景,可以应用于各种需要复杂推理能力的场景,例如数学问题求解、代码生成、知识图谱推理等。该研究的实际价值在于提升了LLM在这些领域的性能,使其能够更好地解决实际问题。未来,T2T框架可以进一步扩展到其他类型的任务和模型,并与其他技术相结合,例如知识蒸馏、模型压缩等,以进一步提升LLM的推理能力和效率。
📄 摘要(原文)
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a promising paradigm for enhancing reasoning in Large Language Models (LLMs). However, it frequently encounters challenges such as entropy collapse, excessive verbosity, and insufficient exploration for hard problems. Crucially, existing reward schemes fail to distinguish between the need for extensive search during problem-solving and the efficiency required for mastered knowledge. In this work, we introduce T2T(Thickening-to-Thinning), a dynamic reward framework inspired by human learning processes. Specifically, it implements a dual-phase mechanism: (1) On incorrect attempts, T2T incentivizes "thickening" (longer trajectories) to broaden the search space and explore novel solution paths; (2) Upon achieving correctness, it shifts to "thinning", imposing length penalties to discourage redundancy, thereby fostering model confidence and crystallizing reasoning capabilities. Extensive experiments on mathematical benchmarks (MATH-500, AIME, AMC) across Qwen-series and Deepseek models demonstrate that T2T significantly outperforms standard GRPO and recent baselines, achieving superior performance.