Learn to Reason Efficiently with Adaptive Length-based Reward Shaping

作者: Wei Liu, Ruochen Zhou, Yiyun Deng, Yuzhen Huang, Junteng Liu, Yuntian Deng, Yizhe Zhang, Junxian He

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-05-21

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于自适应长度奖励塑造的LASER-D方法，提升大型推理模型的效率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 大型推理模型 强化学习 奖励塑造 推理效率 自适应学习 难度感知 思维链 模型压缩

📋 核心要点

现有大型推理模型生成的推理轨迹存在冗余，降低了推理效率，这是核心问题。
提出LASER-D方法，通过动态和难度感知的长度奖励塑造，鼓励模型生成更简洁高效的推理过程。
实验表明，LASER-D在提升推理性能的同时，显著降低了token使用量，例如在AIME2024上提升6.1，token减少63%。

📝 摘要（中文）

大型推理模型(LRMs)在通过强化学习解决复杂问题方面表现出卓越的能力，特别是通过生成长的推理轨迹。然而，这些扩展的输出通常表现出大量的冗余，这限制了LRMs的效率。本文研究了基于强化学习的方法来提高推理效率。首先，提出了一个统一的框架，通过基于长度的奖励塑造的视角来形式化各种高效的推理方法。在此基础上，提出了一种新的基于长度的步进奖励塑造方法(LASER)，该方法采用步进函数作为奖励，由目标长度控制。LASER超越了以前的方法，在性能和效率之间实现了卓越的帕累托最优平衡。接下来，基于两个关键的直觉进一步扩展LASER：(1)模型的推理行为在训练过程中演变，需要自适应和动态的奖励规范；(2)我们认为，基于长度的奖励塑造应该是难度感知的，而不是统一地鼓励更短或更长的思维链(CoT)，即对于简单的查询，应该更多地惩罚冗长的CoT。这种方法有望促进快速和慢速思维的结合，从而实现更好的整体权衡。由此产生的方法被称为LASER-D(动态和难度感知)。在DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Qwen-32B上的实验表明，该方法显著提高了推理性能和响应长度效率。例如，LASER-D及其变体在AIME2024上实现了+6.1的改进，同时减少了63%的token使用量。进一步的分析表明，基于强化学习的压缩产生了更简洁的推理模式，减少了冗余的“自我反思”。

🔬 方法详解

问题定义：论文旨在解决大型推理模型（LRMs）在生成推理链时存在的冗余问题，即模型为了完成任务，会产生过长的推理过程，包含大量无用的“自我反思”，导致效率低下。现有方法要么难以在性能和效率之间取得平衡，要么无法根据推理过程的动态变化进行调整。

核心思路：论文的核心思路是利用强化学习，通过奖励塑造（Reward Shaping）来引导模型生成更短、更有效的推理链。LASER-D的关键在于其“动态和难度感知”的特性，即奖励函数会根据训练的进展和问题的难度进行自适应调整，从而鼓励模型在简单问题上快速思考，在复杂问题上进行更深入的推理。

技术框架：整体框架基于强化学习，模型作为Agent，与环境（问题）进行交互，生成推理链作为Action，并根据奖励函数获得反馈。LASER-D的核心在于奖励函数的设计，它包含以下几个关键部分：1) 基于长度的步进奖励（Length-based Step Reward）：对推理链的长度进行惩罚或奖励；2) 动态调整：根据训练的进展，自适应地调整目标长度和奖励强度；3) 难度感知：根据问题的难度，调整对推理链长度的惩罚力度，简单问题惩罚更严厉。

关键创新：LASER-D的关键创新在于其动态和难度感知的奖励塑造机制。与传统的静态奖励函数相比，LASER-D能够更好地适应模型在训练过程中的变化，并根据问题的难度进行差异化处理。这种自适应性使得模型能够在性能和效率之间取得更好的平衡。

关键设计：LASER-D的关键设计包括：1) 目标长度的动态调整策略，例如可以根据验证集上的性能进行调整；2) 难度评估方法，例如可以根据问题本身的复杂度或者模型在问题上的表现进行评估；3) 奖励函数的具体形式，例如可以使用步进函数或者其他连续函数，并调整其参数以达到最佳效果。损失函数通常是强化学习中的标准损失函数，例如Policy Gradient或Actor-Critic损失函数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LASER-D及其变体在DeepSeek-R1-Distill-Qwen系列模型上取得了显著的性能提升和效率改进。例如，在AIME2024数据集上，LASER-D在性能提升6.1个百分点的同时，减少了63%的token使用量。这表明LASER-D能够有效地压缩推理链，提高推理效率。

🎯 应用场景

该研究成果可应用于各种需要大型推理模型的场景，例如问答系统、对话系统、代码生成等。通过提高推理效率，可以降低计算成本，提升用户体验，并使得LRMs能够部署在资源受限的设备上。此外，该方法还可以用于提升模型的鲁棒性和可解释性，减少模型对冗余信息的依赖。

📄 摘要（原文）

Large Reasoning Models (LRMs) have shown remarkable capabilities in solving complex problems through reinforcement learning (RL), particularly by generating long reasoning traces. However, these extended outputs often exhibit substantial redundancy, which limits the efficiency of LRMs. In this paper, we investigate RL-based approaches to promote reasoning efficiency. Specifically, we first present a unified framework that formulates various efficient reasoning methods through the lens of length-based reward shaping. Building on this perspective, we propose a novel Length-bAsed StEp Reward shaping method (LASER), which employs a step function as the reward, controlled by a target length. LASER surpasses previous methods, achieving a superior Pareto-optimal balance between performance and efficiency. Next, we further extend LASER based on two key intuitions: (1) The reasoning behavior of the model evolves during training, necessitating reward specifications that are also adaptive and dynamic; (2) Rather than uniformly encouraging shorter or longer chains of thought (CoT), we posit that length-based reward shaping should be difficulty-aware i.e., it should penalize lengthy CoTs more for easy queries. This approach is expected to facilitate a combination of fast and slow thinking, leading to a better overall tradeoff. The resulting method is termed LASER-D (Dynamic and Difficulty-aware). Experiments on DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B, and DeepSeek-R1-Distill-Qwen-32B show that our approach significantly enhances both reasoning performance and response length efficiency. For instance, LASER-D and its variant achieve a +6.1 improvement on AIME2024 while reducing token usage by 63%. Further analysis reveals our RL-based compression produces more concise reasoning patterns with less redundant "self-reflections". Resources are at https://github.com/hkust-nlp/Laser.

Learn to Reason Efficiently with Adaptive Length-based Reward Shaping

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理