LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization
作者: Xingyu Wu, Yuchen Yan, Shangke Lyu, Linjuan Wu, Yiwen Qiu, Yongliang Shen, Weiming Lu, Jian Shao, Jun Xiao, Yueting Zhuang
分类: cs.AI, cs.CL
发布日期: 2025-07-21 (更新: 2025-08-14)
备注: GitHub:https://github.com/zju-real/lapoProject:https://zju-real.github.io/lapo
💡 一句话要点
提出LAPO,通过长度自适应策略优化提升推理效率并降低token消耗。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长度自适应 策略优化 强化学习 推理效率 数学推理
📋 核心要点
- 现有推理模型存在过度生成token的问题,即使对于简单问题也消耗大量计算资源。
- LAPO通过两阶段强化学习,使模型内化推理长度控制,实现长度自适应。
- 实验表明,LAPO在降低token使用量的同时,还能提升推理准确率。
📝 摘要(中文)
大型推理模型通过扩展的思维链序列取得了显著的性能,但即使对于简单的问题,这种计算自由也会导致过多的token生成。我们提出了长度自适应策略优化(LAPO),这是一个新颖的框架,它将推理长度控制从外部约束转变为内在的模型能力。与施加严格限制或依赖事后干预的现有方法不同,LAPO使模型能够通过两阶段强化学习过程来内化对适当推理深度的理解。在第一阶段,模型通过发现成功解决方案长度的统计分布来学习自然的推理模式。第二阶段利用这些模式作为元认知指导,将它们直接嵌入到模型的推理上下文中,以确保推理时的灵活性。在数学推理基准上的实验表明,LAPO减少了高达40.9%的token使用量,同时提高了2.3%的准确率。我们的分析表明,使用LAPO训练的模型发展出基于问题复杂性分配计算资源的新兴能力,从而在不牺牲质量的情况下实现高效推理。
🔬 方法详解
问题定义:论文旨在解决大型推理模型在推理过程中token使用效率低下的问题。现有方法通常采用硬性长度限制或事后干预,无法使模型根据问题复杂度自适应地调整推理长度,导致计算资源浪费和性能瓶颈。
核心思路:LAPO的核心思路是将推理长度控制内化到模型本身,使其具备根据问题复杂度动态调整推理长度的能力。通过强化学习,模型学习到不同问题所需的最佳推理长度分布,并将其作为元认知指导嵌入到推理过程中。
技术框架:LAPO包含两个主要阶段: 1. 推理长度分布学习阶段:通过强化学习,模型探索不同推理长度下的成功率,学习成功解决方案长度的统计分布。 2. 长度自适应推理阶段:将学习到的推理长度分布作为元认知信息,引导模型在推理过程中动态调整推理长度。模型在每一步推理时,都会考虑当前状态和学习到的长度分布,决定是否继续推理。
关键创新:LAPO的关键创新在于将推理长度控制从外部约束转变为内在模型能力。与传统方法不同,LAPO不依赖于预定义的长度限制或事后干预,而是通过强化学习使模型自主学习最佳推理策略。这种方法能够更好地适应不同复杂度的推理问题,提高推理效率和准确率。
关键设计: * 奖励函数设计:在推理长度分布学习阶段,奖励函数鼓励模型生成成功的解决方案,并惩罚过长或过短的推理长度。 * 策略网络设计:策略网络用于预测下一步的推理长度,输入包括当前状态和学习到的长度分布。 * 损失函数设计:损失函数结合了策略梯度和长度分布的KL散度,鼓励模型学习与目标长度分布相似的推理策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在数学推理基准上,LAPO能够将token使用量降低高达40.9%,同时将准确率提高2.3%。与基线模型相比,LAPO在推理效率和准确率方面均取得了显著提升,验证了其有效性。
🎯 应用场景
LAPO可应用于各种需要高效推理的场景,例如数学问题求解、代码生成、知识图谱推理等。通过降低token使用量,LAPO能够显著降低计算成本,并提高模型在资源受限环境下的部署能力。该研究对于推动通用人工智能的发展具有重要意义。
📄 摘要(原文)
Large reasoning models have achieved remarkable performance through extended chain-of-thought sequences, yet this computational freedom leads to excessive token generation even for simple problems. We present Length-Adaptive Policy Optimization (LAPO), a novel framework that transforms reasoning length control from an external constraint into an intrinsic model capability. Unlike existing approaches that impose rigid limits or rely on post-hoc interventions, LAPO enables models to internalize an understanding of appropriate reasoning depth through a two-stage reinforcement learning process. In the first stage, models learn natural reasoning patterns by discovering the statistical distribution of successful solution lengths. The second stage leverages these patterns as meta-cognitive guidance, embedding them directly within the model's reasoning context to ensure inference-time flexibility. Experiments on mathematical reasoning benchmarks demonstrate that LAPO reduces token usage by up to 40.9% while improving accuracy by 2.3%. Our analysis reveals that models trained with LAPO develop emergent abilities to allocate computational resources based on problem complexity, achieving efficient reasoning without sacrificing quality.