Leash: Adaptive Length Penalty and Reward Shaping for Efficient Large Reasoning Model

📄 arXiv: 2512.21540v1 📥 PDF

作者: Yanhao Li, Lu Ma, Jiaran Zhang, Lexiang Tang, Wentao Zhang, Guibo Luo

分类: cs.AI

发布日期: 2025-12-25


💡 一句话要点

Leash:自适应长度惩罚与奖励塑造,提升大语言模型推理效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 强化学习 长度控制 自适应惩罚 拉格朗日方法

📋 核心要点

  1. 现有大语言模型推理方法依赖固定长度惩罚,难以兼顾准确性和简洁性,需要手动调整。
  2. Leash框架采用强化学习,通过拉格朗日方法动态调整长度惩罚,实现自适应长度控制。
  3. 实验表明,Leash在多种任务上显著缩短推理长度(60%),同时保持了竞争力的性能。

📝 摘要(中文)

现有方法通常依赖于固定的长度惩罚,但这种惩罚难以调整,并且无法适应大语言模型不断发展的推理能力,导致准确性和简洁性之间的权衡不佳。为了解决这个问题,我们提出了Leash(自适应长度惩罚与奖励塑造),这是一个用于大语言模型高效推理的强化学习框架。我们将长度控制建模为一个约束优化问题,并采用拉格朗日原始-对偶方法来动态调整惩罚系数。当生成结果超过目标长度时,惩罚会加强;当生成结果较短时,惩罚会放松。这种自适应机制引导模型在不牺牲任务性能的情况下产生简洁的推理。在Deepseek-R1-Distill-Qwen-1.5B和Qwen3-4B-Thinking-2507上的实验表明,Leash在各种任务中(包括分布内的数学推理和分布外的领域,如编码和指令遵循)将平均推理长度减少了60%,同时保持了具有竞争力的性能。因此,我们的工作提出了一种实用且有效的范例,用于开发可控且高效的大语言模型,从而平衡推理能力与计算预算。

🔬 方法详解

问题定义:现有大语言模型在推理过程中,通常采用固定的长度惩罚来控制生成文本的长度。然而,这种固定的惩罚项难以针对不同的任务和模型进行调整,导致模型在准确性和简洁性之间难以达到最佳平衡。过短的生成可能丢失关键信息,降低准确率;过长的生成则会增加计算成本,降低效率。因此,如何自适应地调整长度惩罚,以在保证性能的同时,尽可能缩短推理长度,是一个亟待解决的问题。

核心思路:Leash的核心思路是将长度控制问题建模为一个约束优化问题,目标是在满足长度约束的前提下,最大化模型的性能。为了解决这个约束优化问题,论文采用了拉格朗日原始-对偶方法。该方法引入一个拉格朗日乘子,用于动态调整长度惩罚的系数。当模型生成的文本长度超过目标长度时,拉格朗日乘子会增大,从而加强长度惩罚;反之,当模型生成的文本长度短于目标长度时,拉格朗日乘子会减小,从而放松长度惩罚。通过这种自适应的调整机制,Leash能够引导模型生成既准确又简洁的推理结果。

技术框架:Leash框架主要包含以下几个模块:1) 大语言模型:作为推理的主体,负责生成文本。2) 奖励函数:用于评估生成文本的质量,包括任务完成的准确率等指标。3) 长度惩罚:用于控制生成文本的长度,其系数由拉格朗日乘子动态调整。4) 拉格朗日乘子更新器:根据生成文本的长度与目标长度之间的差异,更新拉格朗日乘子的值。整个框架通过强化学习的方式进行训练,目标是找到最优的策略,使得模型能够在满足长度约束的前提下,最大化奖励函数。

关键创新:Leash的关键创新在于其自适应的长度惩罚机制。与传统的固定长度惩罚相比,Leash能够根据模型的生成情况动态调整惩罚系数,从而更好地平衡准确性和简洁性。这种自适应机制使得Leash能够更好地适应不同的任务和模型,并且能够更有效地控制生成文本的长度。此外,将长度控制问题建模为约束优化问题,并采用拉格朗日原始-对偶方法进行求解,也是一个重要的创新点。

关键设计:Leash的关键设计包括:1) 奖励函数的选择:奖励函数需要能够准确地评估生成文本的质量,例如,可以使用任务完成的准确率作为奖励。2) 目标长度的设置:目标长度需要根据具体的任务和模型进行调整,以达到最佳的性能。3) 拉格朗日乘子的更新策略:拉格朗日乘子的更新策略需要能够保证算法的收敛性,并且能够快速地适应模型的生成情况。论文中具体使用了Adam优化器来更新拉格朗日乘子。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Leash在Deepseek-R1-Distill-Qwen-1.5B和Qwen3-4B-Thinking-2507模型上,在多种任务中将平均推理长度减少了60%,同时保持了具有竞争力的性能。具体来说,Leash在数学推理、代码生成和指令跟随等任务上都取得了显著的性能提升。这些结果表明,Leash是一种实用且有效的长度控制方法,可以有效地提高大语言模型的推理效率。

🎯 应用场景

Leash框架具有广泛的应用前景,可以应用于各种需要大语言模型进行推理的任务中,例如数学问题求解、代码生成、指令跟随等。通过Leash,可以有效地控制生成文本的长度,从而降低计算成本,提高推理效率。此外,Leash还可以用于开发可控的大语言模型,使得用户可以根据自己的需求,调整生成文本的长度和风格。未来,Leash有望成为大语言模型推理的重要组成部分。

📄 摘要(原文)

Existing approaches typically rely on fixed length penalties, but such penalties are hard to tune and fail to adapt to the evolving reasoning abilities of LLMs, leading to suboptimal trade-offs between accuracy and conciseness. To address this challenge, we propose Leash (adaptive LEngth penAlty and reward SHaping), a reinforcement learning framework for efficient reasoning in LLMs. We formulate length control as a constrained optimization problem and employ a Lagrangian primal-dual method to dynamically adjust the penalty coefficient. When generations exceed the target length, the penalty is intensified; when they are shorter, it is relaxed. This adaptive mechanism guides models toward producing concise reasoning without sacrificing task performance. Experiments on Deepseek-R1-Distill-Qwen-1.5B and Qwen3-4B-Thinking-2507 show that Leash reduces the average reasoning length by 60% across diverse tasks - including in-distribution mathematical reasoning and out-of-distribution domains such as coding and instruction following - while maintaining competitive performance. Our work thus presents a practical and effective paradigm for developing controllable and efficient LLMs that balance reasoning capabilities with computational budgets.