ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning

📄 arXiv: 2504.21370v4 📥 PDF

作者: Jingyang Yi, Jiazheng Wang, Sida Li

分类: cs.AI

发布日期: 2025-04-30 (更新: 2025-12-02)

备注: updated project website


💡 一句话要点

ShorterBetter:引导推理模型学习最优推理长度,提升推理效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 推理优化 思维链 大语言模型 效率提升

📋 核心要点

  1. 现有大语言模型在复杂推理任务中存在“过度思考”问题,即生成过长且冗余的推理过程,降低效率。
  2. ShorterBetter 提出一种基于强化学习的方法,通过动态奖励信号(样本最优长度 SOL)引导模型学习最优推理长度。
  3. 实验表明,ShorterBetter 能显著减少推理长度(50%-80%),同时保持甚至提升推理准确性,优化推理轨迹结构。

📝 摘要(中文)

OpenAI o1 和 DeepSeek-R1 等模型通过生成扩展的思维链 (CoT) 轨迹,在推理密集型任务中表现出强大的性能。虽然更长的推理有助于彻底探索复杂问题的解决方案路径,但也经常导致效率低下和冗余的输出,这种现象通常被称为过度思考。本文提出 ShorterBetter,这是一种简单而有效的强化学习方法,使推理模型能够在没有人工监督的情况下学习其自身的最优 CoT 长度。我们将样本最优长度 (SOL) 定义为多次生成中最短的正确响应的长度,它作为一种动态奖励信号,引导模型进行高效推理。应用于 DeepSeek-Distill-Qwen-1.5B/7B 作为基础模型,ShorterBetter 在保持准确性的同时,在领域内和领域外推理任务中实现了 50%-80% 的输出长度减少。我们的推理轨迹分析表明,ShorterBetter 通过减少不必要的重复、过度的自我验证和对替代方案的过度探索,改进了推理轨迹的结构。

🔬 方法详解

问题定义:现有的大语言模型,例如 OpenAI o1 和 DeepSeek-R1,在进行复杂推理时,倾向于生成过长的 Chain-of-Thought (CoT) 推理过程。虽然更长的推理链条有助于模型探索更多的解决方案,但同时也引入了冗余信息和不必要的计算,导致效率降低,即所谓的“过度思考”。现有的方法缺乏一种有效的机制来控制推理的长度,通常依赖于人工设计的规则或启发式方法,难以适应不同的任务和模型。

核心思路:ShorterBetter 的核心思路是通过强化学习,让模型自主学习最优的推理长度。关键在于定义一个合适的奖励信号,引导模型生成既正确又简洁的推理过程。论文提出了 Sample Optimal Length (SOL) 的概念,即在多次生成的结果中,选择最短的正确答案的长度作为目标。模型的目标是生成长度接近 SOL 的推理过程,从而避免过度思考。

技术框架:ShorterBetter 的整体框架是一个强化学习流程。首先,模型对同一个问题进行多次推理生成多个 CoT 轨迹。然后,从这些轨迹中筛选出正确的答案,并计算 SOL。接着,使用 SOL 作为奖励信号,训练一个策略网络,该网络负责控制推理过程的长度。具体来说,策略网络会预测每一步推理的停止概率,从而影响推理的长度。最后,使用策略梯度算法更新策略网络,使其能够生成更接近 SOL 的推理过程。

关键创新:ShorterBetter 的关键创新在于提出了 SOL 作为动态奖励信号。与传统的固定长度或人工设计的奖励函数不同,SOL 能够根据每个样本的特点自适应地调整目标推理长度。这种动态奖励机制能够更有效地引导模型学习最优的推理策略,避免过度思考,提高推理效率。此外,该方法无需人工标注数据,降低了训练成本。

关键设计:ShorterBetter 使用策略梯度算法进行训练。策略网络通常是一个小型神经网络,输入是当前的推理状态,输出是停止推理的概率。损失函数是基于策略梯度的标准强化学习损失函数,目标是最大化期望奖励,即最小化推理长度与 SOL 之间的差异。为了提高训练的稳定性,可以使用一些技巧,例如奖励塑造 (reward shaping) 和基线函数 (baseline function)。具体的参数设置需要根据不同的任务和模型进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ShorterBetter 在 DeepSeek-Distill-Qwen-1.5B/7B 模型上进行了实验,结果表明,在领域内和领域外推理任务中,ShorterBetter 能够实现 50%-80% 的输出长度减少,同时保持甚至提升推理准确性。例如,在某些任务上,ShorterBetter 甚至能够将准确率提高 2-3 个百分点。推理轨迹分析表明,ShorterBetter 能够有效地减少不必要的重复、过度的自我验证和对替代方案的过度探索,从而优化推理轨迹的结构。

🎯 应用场景

ShorterBetter 具有广泛的应用前景,可以应用于各种需要复杂推理的任务,例如数学问题求解、常识推理、代码生成等。通过减少推理长度,可以显著提高模型的推理效率,降低计算成本。此外,ShorterBetter 还可以用于优化对话系统,使其能够更简洁明了地回答用户的问题。该研究对于推动大语言模型在实际应用中的部署具有重要意义。

📄 摘要(原文)

Recent models such as OpenAI o1 and DeepSeek-R1 have demonstrated strong performance on reasoning-intensive tasks by generating extended Chain-of-Thought (CoT) traces. While longer reasoning helps with thorough exploration of solution paths for complex problems, it also often leads to inefficient and redundant outputs--a phenomenon commonly described as overthinking. In this paper, we propose ShorterBetter, a simple yet effective reinforcement learning method that enables reasoning models to learn their own optimal CoT lengths without manual supervision. We define the Sample Optimal Length (SOL) as the length of the shortest correct response among multiple generations, which serves as a dynamic reward signal to guide the model toward efficient reasoning. Applied to DeepSeek-Distill-Qwen-1.5B/7B as base models, ShorterBetter achieves 50%-80% reduction in output lengths in both in-domain and out-of-domain reasoning tasks while maintaining accuracy. Our reasoning trace analysis shows that ShorterBetter refines the structure of the reasoning traces by reducing unnecessary repetition, excessive self-verification, and over-exploration of alternatives.