LightThinker++: From Reasoning Compression to Memory Management

📄 arXiv: 2604.03679 📥 PDF

作者: Yuqi Zhu, Jintian Zhang, Zhenjie Wan, Yujie Luo, Shuofei Qiao, Zhengke Gui, Da Zheng, Lei Liang, Huajun Chen, Ningyu Zhang

分类: cs.CL, cs.AI, cs.IR, cs.LG, cs.MM

发布日期: 2026-04-07


💡 一句话要点

LightThinker++:通过显式自适应内存管理,提升LLM在复杂推理和Agent任务中的效率和性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理压缩 内存管理 Agent任务 长时程推理

📋 核心要点

  1. 现有LLM推理效率受限于长推理轨迹带来的巨大认知开销,中间步骤冗余且难以管理。
  2. LightThinker++通过显式自适应内存管理,动态压缩中间思想,并根据推理需求调度内存,提升效率。
  3. 实验表明,LightThinker++在标准推理和长时程Agent任务中,显著降低token使用量,并提升了推理精度。

📝 摘要(中文)

大型语言模型(LLMs)在复杂推理方面表现出色,但其效率受到长推理轨迹带来的认知开销限制。本文提出了LightThinker,一种能够使LLMs动态地将中间思想压缩成紧凑语义表示的方法。然而,静态压缩在复杂推理中常常面临困境,因为中间细节的不可逆损失可能导致逻辑瓶颈。为了解决这个问题,我们将框架发展为LightThinker++,引入了显式自适应内存管理。这种范式通过结合显式内存原语,转变为行为级别的管理,并由专门的轨迹合成管道支持,以训练有目的的内存调度。大量实验证明了该框架在三个维度上的通用性。(1) LightThinker减少了70%的峰值token使用量和26%的推理时间,同时精度损失最小。(2) 在标准推理中,LightThinker++在相同的上下文预算下,将峰值token使用量减少了69.9%,同时获得了+2.42%的精度提升,以实现最佳性能。(3) 最值得注意的是,在长时程Agent任务中,它在超过80轮的交互中保持了稳定的占用空间(减少了60%-70%),并在不同的复杂场景中实现了平均14.8%的性能提升。总的来说,我们的工作为在最小开销下维持LLM在扩展时程上的深度推理提供了一个可扩展的方向。

🔬 方法详解

问题定义:大型语言模型在复杂推理和Agent任务中,随着推理步骤的增加,token使用量和计算开销急剧上升,导致效率低下。静态压缩方法虽然可以减少token数量,但可能会丢失关键的中间推理细节,影响最终结果的准确性。因此,如何在保证推理精度的前提下,有效地管理和压缩LLM的推理过程,是一个亟待解决的问题。

核心思路:LightThinker++的核心思路是引入显式自适应内存管理机制,允许LLM根据推理过程的需要,动态地将中间思想压缩成紧凑的语义表示,并有选择性地存储和检索这些表示。通过这种方式,模型可以避免不必要的token冗余,同时保留关键的推理信息,从而提高推理效率和准确性。

技术框架:LightThinker++框架包含以下主要模块:1) 推理压缩模块:将中间推理步骤压缩成紧凑的语义表示。2) 显式内存管理模块:根据推理需求,动态地分配、存储和检索压缩后的推理信息。3) 轨迹合成模块:用于生成训练数据,指导内存管理模块学习有目的的内存调度策略。整体流程是,LLM在推理过程中,将中间步骤送入推理压缩模块进行压缩,然后由显式内存管理模块决定是否存储该信息,以及何时检索该信息。

关键创新:LightThinker++的关键创新在于引入了显式自适应内存管理机制。与传统的静态压缩方法不同,LightThinker++允许模型根据推理过程的需要,动态地管理内存,从而更好地适应不同的推理任务和场景。此外,轨迹合成模块的引入,使得模型能够学习到有目的的内存调度策略,进一步提高了推理效率和准确性。

关键设计:LightThinker++的关键设计包括:1) 压缩模块:可以使用各种压缩算法,例如自编码器或知识蒸馏。2) 内存管理模块:可以使用强化学习或监督学习来训练内存调度策略。3) 轨迹合成模块:需要精心设计奖励函数,以鼓励模型学习到有效的内存调度策略。具体的参数设置和网络结构需要根据具体的任务和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LightThinker++在标准推理任务中,在相同的上下文预算下,将峰值token使用量减少了69.9%,同时获得了+2.42%的精度提升。在长时程Agent任务中,它在超过80轮的交互中保持了稳定的占用空间(减少了60%-70%),并在不同的复杂场景中实现了平均14.8%的性能提升。LightThinker在减少token使用量和推理时间方面也表现出色,分别降低了70%和26%。

🎯 应用场景

LightThinker++可应用于需要长时间推理和决策的Agent任务,例如游戏AI、智能客服、自动驾驶等。通过降低token使用量和提高推理效率,可以显著降低计算成本,并提升用户体验。该研究为开发更高效、更智能的LLM应用提供了新的思路。

📄 摘要(原文)

Large language models (LLMs) excel at complex reasoning, yet their efficiency is limited by the surging cognitive overhead of long thought traces. In this paper, we propose LightThinker, a method that enables LLMs to dynamically compress intermediate thoughts into compact semantic representations. However, static compression often struggles with complex reasoning where the irreversible loss of intermediate details can lead to logical bottlenecks. To address this, we evolve the framework into LightThinker++, introducing Explicit Adaptive Memory Management. This paradigm shifts to behavioral-level management by incorporating explicit memory primitives, supported by a specialized trajectory synthesis pipeline to train purposeful memory scheduling. Extensive experiments demonstrate the framework's versatility across three dimensions. (1) LightThinker reduces peak token usage by 70% and inference time by 26% with minimal accuracy loss. (2) In standard reasoning, LightThinker++ slashes peak token usage by 69.9% while yielding a +2.42% accuracy gain under the same context budget for maximum performance. (3) Most notably, in long-horizon agentic tasks, it maintains a stable footprint beyond 80 rounds (a 60%-70% reduction), achieving an average performance gain of 14.8% across different complex scenarios. Overall, our work provides a scalable direction for sustaining deep LLM reasoning over extended horizons with minimal overhead.