Selective Latent Thinking: Adaptive Compression of LLM Reasoning Chains

📄 arXiv: 2605.25745v1 📥 PDF

作者: Hui Xie, Jie Liu, Ziyue Qiao, Joaquin Vanschore

分类: cs.CL

发布日期: 2026-05-25

🔗 代码/项目: GITHUB


💡 一句话要点

提出选择性潜在思维(SLT),自适应压缩LLM推理链以提升效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理效率 思维链 潜在推理 选择性压缩

📋 核心要点

  1. 显式思维链(CoT)推理虽然提升了LLM的推理能力,但由于自回归轨迹过长,导致推理成本高昂。
  2. SLT框架选择性地压缩冗余推理跨度为潜在表示,同时保留关键步骤的显式CoT,兼顾效率与精度。
  3. 实验表明,SLT在数学推理任务上,相比潜在推理基线显著提升了准确率,并有效缩短了推理链长度。

📝 摘要(中文)

本文提出了一种名为选择性潜在思维(SLT)的框架,旨在提高大型语言模型(LLM)的推理效率。SLT的核心思想是选择性地将冗余的推理跨度压缩为潜在表示,同时保留对精度至关重要的跨度作为显式的思维链(CoT)。SLT首先使用轻量级解码器预测即将到来的推理跨度,然后应用基于置信度的门控机制来确定可以可靠压缩的最长跨度。被接受的跨度被编码为紧凑的潜在表示以提高效率,而不确定或对精度至关重要的推理则保持显式CoT形式以保持准确性。为了学习这种选择性压缩策略,SLT采用三阶段训练策略,结合跨度级潜在压缩、可靠性感知的未来推理预测和轨迹级强化学习,以优化答案正确性和推理成本之间的权衡。在四个数学推理基准上的大量实验表明,SLT在可比的压缩率下,比潜在推理基线实现了高22.7%的准确率,同时与显式CoT相比,推理链长度减少了58.4%,而准确率仅下降了2.8%。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)推理方法,特别是显式思维链(CoT)推理,虽然能够提升推理能力,但由于需要生成冗长的推理过程,导致计算成本和时间开销巨大。而现有的潜在推理方法试图压缩整个推理过程,但往往忽略了推理过程中不同步骤的重要性,过度压缩关键步骤会导致推理精度下降。因此,如何在保证推理精度的前提下,有效地压缩LLM的推理过程,降低推理成本,是一个亟待解决的问题。

核心思路:SLT的核心思路是选择性地压缩LLM的推理过程。它不是像现有潜在推理方法那样对整个推理链进行统一压缩,而是根据推理步骤的重要性,选择性地将冗余或不重要的步骤压缩为潜在表示,而保留对精度至关重要的步骤作为显式的CoT。这样既可以减少推理链的长度,降低计算成本,又可以避免过度压缩关键步骤导致精度下降。

技术框架:SLT框架主要包含以下几个模块:1) 轻量级解码器:用于预测即将到来的推理跨度,评估其重要性。2) 基于置信度的门控机制:根据解码器的预测结果,判断哪些跨度可以安全地压缩为潜在表示。3) 编码器:将选定的跨度编码为紧凑的潜在表示。4) LLM:利用潜在表示和显式CoT进行推理,生成最终答案。整个流程是,首先使用解码器预测推理跨度,然后通过门控机制选择性地压缩跨度,最后利用LLM进行推理。

关键创新:SLT的关键创新在于其选择性压缩策略。与现有方法不同,SLT能够根据推理步骤的重要性,自适应地选择哪些步骤进行压缩,哪些步骤保持显式。这种选择性压缩策略能够更好地平衡推理效率和精度,避免了现有方法中过度压缩关键步骤导致精度下降的问题。

关键设计:SLT采用三阶段训练策略:1) 跨度级潜在压缩:训练编码器和解码器,使其能够有效地压缩和重建推理跨度。2) 可靠性感知的未来推理预测:训练解码器,使其能够准确地预测推理跨度的重要性,并为门控机制提供可靠的置信度信息。3) 轨迹级强化学习:利用强化学习优化整个SLT框架,使其能够在答案正确性和推理成本之间取得最佳平衡。此外,SLT还使用了基于置信度的门控机制,根据解码器的预测结果动态地调整压缩比例。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SLT在四个数学推理基准上进行了广泛的实验,结果表明,SLT在可比的压缩率下,比潜在推理基线实现了高22.7%的准确率。同时,与显式CoT相比,SLT将推理链长度减少了58.4%,而准确率仅下降了2.8%。这些结果充分证明了SLT在提高LLM推理效率和精度方面的有效性。

🎯 应用场景

SLT具有广泛的应用前景,可应用于各种需要LLM进行复杂推理的场景,例如数学问题求解、代码生成、知识图谱推理等。通过降低LLM的推理成本,SLT可以促进LLM在资源受限环境中的部署,并加速LLM在实际应用中的普及。此外,SLT的选择性压缩策略也有助于提高LLM的可解释性,使用户更容易理解LLM的推理过程。

📄 摘要(原文)

Explicit chain-of-thought (CoT) reasoning substantially improves the reasoning ability of large language models (LLMs), but incurs high inference cost due to lengthy autoregressive traces. Existing latent reasoning methods offer a promising alternative, yet they often treat reasoning as uniformly compressible, causing precision-critical intermediate steps to be overly compressed and thereby degrading reasoning accuracy. In this work, we propose Selective Latent Thinking (SLT), a framework that selectively compresses redundant reasoning spans into latent representations while preserving precision-critical spans as explicit CoT within the same reasoning trajectory. Specifically, SLT first uses a lightweight decoder to anticipate a short upcoming reasoning span, and then applies confidence-based gating to determine the longest span that can be reliably compressed. The accepted span is encoded into a compact latent representation to improve reasoning efficiency, while uncertain or precision-critical reasoning remains in explicit CoT form to preserve accuracy. To learn this selective compression policy, SLT adopts a three-stage training strategy that combines span-level latent compression, reliability-aware future reasoning prediction, and trajectory-level reinforcement learning to optimize the trade-off between answer correctness and reasoning cost. Extensive experiments across four mathematical reasoning benchmarks demonstrate that SLT achieves 22.7\% higher accuracy than latent reasoning baselines at comparable compression ratios, while reducing reasoning chain length by 58.4\% with only 2.8\% accuracy degradation compared to explicit CoT,Our code can be found in https://github.com/hunshi34/SLT.