LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization

作者: Xingyu Wu, Yuchen Yan, Shangke Lyu, Linjuan Wu, Yiwen Qiu, Yongliang Shen, Weiming Lu, Jian Shao, Jun Xiao, Yueting Zhuang

分类: cs.AI, cs.CL

发布日期: 2025-07-21 (更新: 2025-08-14)

备注: GitHub:https://github.com/zju-real/lapoProject:https://zju-real.github.io/lapo

💡 一句话要点

提出LAPO，通过长度自适应策略优化提升推理效率并降低token消耗。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长度自适应 策略优化 强化学习 推理效率 数学推理

📋 核心要点

现有推理模型存在过度生成token的问题，即使对于简单问题也消耗大量计算资源。
LAPO通过两阶段强化学习，使模型内化推理长度控制，实现长度自适应。
实验表明，LAPO在降低token使用量的同时，还能提升推理准确率。

📝 摘要（中文）

大型推理模型通过扩展的思维链序列取得了显著的性能，但即使对于简单的问题，这种计算自由也会导致过多的token生成。我们提出了长度自适应策略优化（LAPO），这是一个新颖的框架，它将推理长度控制从外部约束转变为内在的模型能力。与施加严格限制或依赖事后干预的现有方法不同，LAPO使模型能够通过两阶段强化学习过程来内化对适当推理深度的理解。在第一阶段，模型通过发现成功解决方案长度的统计分布来学习自然的推理模式。第二阶段利用这些模式作为元认知指导，将它们直接嵌入到模型的推理上下文中，以确保推理时的灵活性。在数学推理基准上的实验表明，LAPO减少了高达40.9%的token使用量，同时提高了2.3%的准确率。我们的分析表明，使用LAPO训练的模型发展出基于问题复杂性分配计算资源的新兴能力，从而在不牺牲质量的情况下实现高效推理。

🔬 方法详解

问题定义：论文旨在解决大型推理模型在推理过程中token使用效率低下的问题。现有方法通常采用硬性长度限制或事后干预，无法使模型根据问题复杂度自适应地调整推理长度，导致计算资源浪费和性能瓶颈。

核心思路：LAPO的核心思路是将推理长度控制内化到模型本身，使其具备根据问题复杂度动态调整推理长度的能力。通过强化学习，模型学习到不同问题所需的最佳推理长度分布，并将其作为元认知指导嵌入到推理过程中。

技术框架：LAPO包含两个主要阶段： 1. 推理长度分布学习阶段：通过强化学习，模型探索不同推理长度下的成功率，学习成功解决方案长度的统计分布。 2. 长度自适应推理阶段：将学习到的推理长度分布作为元认知信息，引导模型在推理过程中动态调整推理长度。模型在每一步推理时，都会考虑当前状态和学习到的长度分布，决定是否继续推理。

关键创新：LAPO的关键创新在于将推理长度控制从外部约束转变为内在模型能力。与传统方法不同，LAPO不依赖于预定义的长度限制或事后干预，而是通过强化学习使模型自主学习最佳推理策略。这种方法能够更好地适应不同复杂度的推理问题，提高推理效率和准确率。

关键设计： * 奖励函数设计：在推理长度分布学习阶段，奖励函数鼓励模型生成成功的解决方案，并惩罚过长或过短的推理长度。 * 策略网络设计：策略网络用于预测下一步的推理长度，输入包括当前状态和学习到的长度分布。 * 损失函数设计：损失函数结合了策略梯度和长度分布的KL散度，鼓励模型学习与目标长度分布相似的推理策略。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在数学推理基准上，LAPO能够将token使用量降低高达40.9%，同时将准确率提高2.3%。与基线模型相比，LAPO在推理效率和准确率方面均取得了显著提升，验证了其有效性。

🎯 应用场景

LAPO可应用于各种需要高效推理的场景，例如数学问题求解、代码生成、知识图谱推理等。通过降低token使用量，LAPO能够显著降低计算成本，并提高模型在资源受限环境下的部署能力。该研究对于推动通用人工智能的发展具有重要意义。

📄 摘要（原文）

Large reasoning models have achieved remarkable performance through extended chain-of-thought sequences, yet this computational freedom leads to excessive token generation even for simple problems. We present Length-Adaptive Policy Optimization (LAPO), a novel framework that transforms reasoning length control from an external constraint into an intrinsic model capability. Unlike existing approaches that impose rigid limits or rely on post-hoc interventions, LAPO enables models to internalize an understanding of appropriate reasoning depth through a two-stage reinforcement learning process. In the first stage, models learn natural reasoning patterns by discovering the statistical distribution of successful solution lengths. The second stage leverages these patterns as meta-cognitive guidance, embedding them directly within the model's reasoning context to ensure inference-time flexibility. Experiments on mathematical reasoning benchmarks demonstrate that LAPO reduces token usage by up to 40.9% while improving accuracy by 2.3%. Our analysis reveals that models trained with LAPO develop emergent abilities to allocate computational resources based on problem complexity, achieving efficient reasoning without sacrificing quality.

LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理