SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning
作者: Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen
分类: cs.CL, cs.LG
发布日期: 2026-03-09
🔗 代码/项目: GITHUB
💡 一句话要点
SmartThinker:通过渐进式CoT长度校准提升大语言模型推理效率
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 链式思考 推理效率 长度校准 群体相对策略优化
📋 核心要点
- 现有方法在压缩CoT推理长度时,静态的长度奖励机制无法适应不同难度问题和响应长度分布,导致过度压缩和精度损失。
- SmartThinker通过动态估计最优CoT长度,并引导过长响应向其靠拢,同时动态调整长度奖励系数,避免惩罚正确的推理路径。
- 实验表明,SmartThinker在压缩CoT长度的同时,能够提升模型精度,在AIME25等基准测试中取得了显著的精度提升。
📝 摘要(中文)
大型推理模型(LRM),如OpenAI o1和DeepSeek-R1,通过采用长链式思考(CoT)推理路径在复杂任务上实现了高精度。然而,这些过程固有的冗长性经常导致冗余和过度思考。为了解决这个问题,现有工作利用群体相对策略优化(GRPO)来减少LRM的输出长度,但其静态长度奖励设计无法根据相对问题难度和响应长度分布动态调整,导致过度压缩和精度下降。因此,我们提出SmartThinker,一种基于GRPO的新型高效推理方法,具有渐进式CoT长度校准。SmartThinker做出了双重贡献:首先,它在训练过程中动态估计具有峰值精度的最佳长度,并引导过长的响应朝向它,以减少响应长度,同时保持精度。其次,它动态地调节长度奖励系数,以避免不必要地惩罚正确的推理路径。大量的实验结果表明,SmartThinker实现了高达52.5%的平均长度压缩,并提高了精度,并且在AIME25等具有挑战性的基准测试中实现了高达16.6%的精度提升。源代码可在https://github.com/SJTU-RTEAS/SmartThinker找到。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在进行链式思考(CoT)推理时,由于CoT路径过长导致的冗余和过度思考问题。现有方法,如基于群体相对策略优化(GRPO)的方法,虽然可以减少CoT长度,但其静态的长度奖励设计无法适应不同难度的问题和响应长度分布,容易造成过度压缩,损害推理精度。
核心思路:SmartThinker的核心思路是通过动态校准CoT长度,使其适应问题的难度和响应的实际需求。具体来说,它动态地估计在训练过程中能够达到峰值精度的最优CoT长度,并引导过长的响应向该长度靠拢。同时,动态调整长度奖励系数,避免对正确的推理路径进行不必要的惩罚。
技术框架:SmartThinker基于GRPO框架,主要包含两个关键模块:1) 动态最优长度估计模块:该模块在训练过程中,根据模型的推理精度动态估计最优的CoT长度。2) 动态长度奖励系数调整模块:该模块根据当前CoT长度与最优长度的差距,动态调整长度奖励系数,避免过度惩罚或奖励。整体流程是,模型生成CoT推理路径后,这两个模块会根据当前状态调整奖励信号,引导模型生成更高效、更准确的推理路径。
关键创新:SmartThinker的关键创新在于其动态校准CoT长度的机制。与现有方法采用静态的长度奖励不同,SmartThinker能够根据问题的难度和响应的实际情况,动态地调整CoT长度,从而在保证推理精度的前提下,最大限度地减少冗余计算。这种动态调整机制使得模型能够更好地适应不同的推理任务,提高泛化能力。
关键设计:SmartThinker的关键设计包括:1) 最优长度估计方法:通过监控训练过程中模型的推理精度,并选择精度达到峰值时的CoT长度作为最优长度。2) 长度奖励系数调整策略:根据当前CoT长度与最优长度的差距,采用一个动态调整函数来计算长度奖励系数。该函数的设计需要保证在CoT长度接近最优长度时,奖励系数较高,而在CoT长度偏离最优长度较远时,奖励系数较低,从而引导模型生成更接近最优长度的CoT路径。
🖼️ 关键图片
📊 实验亮点
SmartThinker在多个基准测试中取得了显著的性能提升。例如,在AIME25基准测试中,SmartThinker实现了高达16.6%的精度提升。同时,SmartThinker能够实现高达52.5%的平均CoT长度压缩,这意味着在保证甚至提高精度的前提下,显著减少了计算资源消耗。
🎯 应用场景
SmartThinker具有广泛的应用前景,可应用于各种需要复杂推理的大型语言模型任务中,例如问答系统、知识图谱推理、代码生成等。通过提高推理效率和精度,SmartThinker可以降低计算成本,提升用户体验,并促进大语言模型在实际场景中的应用。
📄 摘要(原文)
Large reasoning models (LRMs) like OpenAI o1 and DeepSeek-R1 achieve high accuracy on complex tasks by adopting long chain-of-thought (CoT) reasoning paths. However, the inherent verbosity of these processes frequently results in redundancy and overthinking. To address this issue, existing works leverage Group Relative Policy Optimization (GRPO) to reduce LRM output length, but their static length reward design cannot dynamically adapt according to the relative problem difficulty and response length distribution, causing over-compression and compromised accuracy. Therefore, we propose SmartThinker, a novel GRPO-based efficient reasoning method with progressive CoT length calibration. SmartThinker makes a two-fold contribution: First, it dynamically estimates the optimal length with peak accuracy during training and guides overlong responses toward it to reduce response length while sustaining accuracy. Second, it dynamically modulates the length reward coefficient to avoid the unwarranted penalization of correct reasoning paths. Extensive experiment results show that SmartThinker achieves up to 52.5% average length compression with improved accuracy, and achieves up to 16.6% accuracy improvement on challenging benchmarks like AIME25. The source code can be found at https://github.com/SJTU-RTEAS/SmartThinker.