Selective Latent Thinking: Adaptive Compression of LLM Reasoning Chains

作者: Hui Xie, Jie Liu, Ziyue Qiao, Joaquin Vanschore

分类: cs.CL

发布日期: 2026-05-25

🔗 代码/项目: GITHUB

💡 一句话要点

提出选择性潜在思维(SLT)，自适应压缩LLM推理链以提升效率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理效率 思维链 潜在推理 选择性压缩

📋 核心要点

显式思维链(CoT)推理虽然提升了LLM的推理能力，但由于自回归轨迹过长，导致推理成本高昂。
SLT框架选择性地压缩冗余推理跨度为潜在表示，同时保留关键步骤的显式CoT，兼顾效率与精度。
实验表明，SLT在数学推理任务上，相比潜在推理基线显著提升了准确率，并有效缩短了推理链长度。

📝 摘要（中文）

本文提出了一种名为选择性潜在思维(SLT)的框架，旨在提高大型语言模型(LLM)的推理效率。SLT的核心思想是选择性地将冗余的推理跨度压缩为潜在表示，同时保留对精度至关重要的跨度作为显式的思维链(CoT)。SLT首先使用轻量级解码器预测即将到来的推理跨度，然后应用基于置信度的门控机制来确定可以可靠压缩的最长跨度。被接受的跨度被编码为紧凑的潜在表示以提高效率，而不确定或对精度至关重要的推理则保持显式CoT形式以保持准确性。为了学习这种选择性压缩策略，SLT采用三阶段训练策略，结合跨度级潜在压缩、可靠性感知的未来推理预测和轨迹级强化学习，以优化答案正确性和推理成本之间的权衡。在四个数学推理基准上的大量实验表明，SLT在可比的压缩率下，比潜在推理基线实现了高22.7%的准确率，同时与显式CoT相比，推理链长度减少了58.4%，而准确率仅下降了2.8%。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）推理方法，特别是显式思维链（CoT）推理，虽然能够提升推理能力，但由于需要生成冗长的推理过程，导致计算成本和时间开销巨大。而现有的潜在推理方法试图压缩整个推理过程，但往往忽略了推理过程中不同步骤的重要性，过度压缩关键步骤会导致推理精度下降。因此，如何在保证推理精度的前提下，有效地压缩LLM的推理过程，降低推理成本，是一个亟待解决的问题。

核心思路：SLT的核心思路是选择性地压缩LLM的推理过程。它不是像现有潜在推理方法那样对整个推理链进行统一压缩，而是根据推理步骤的重要性，选择性地将冗余或不重要的步骤压缩为潜在表示，而保留对精度至关重要的步骤作为显式的CoT。这样既可以减少推理链的长度，降低计算成本，又可以避免过度压缩关键步骤导致精度下降。

技术框架：SLT框架主要包含以下几个模块：1) 轻量级解码器：用于预测即将到来的推理跨度，评估其重要性。2) 基于置信度的门控机制：根据解码器的预测结果，判断哪些跨度可以安全地压缩为潜在表示。3) 编码器：将选定的跨度编码为紧凑的潜在表示。4) LLM：利用潜在表示和显式CoT进行推理，生成最终答案。整个流程是，首先使用解码器预测推理跨度，然后通过门控机制选择性地压缩跨度，最后利用LLM进行推理。

关键创新：SLT的关键创新在于其选择性压缩策略。与现有方法不同，SLT能够根据推理步骤的重要性，自适应地选择哪些步骤进行压缩，哪些步骤保持显式。这种选择性压缩策略能够更好地平衡推理效率和精度，避免了现有方法中过度压缩关键步骤导致精度下降的问题。

关键设计：SLT采用三阶段训练策略：1) 跨度级潜在压缩：训练编码器和解码器，使其能够有效地压缩和重建推理跨度。2) 可靠性感知的未来推理预测：训练解码器，使其能够准确地预测推理跨度的重要性，并为门控机制提供可靠的置信度信息。3) 轨迹级强化学习：利用强化学习优化整个SLT框架，使其能够在答案正确性和推理成本之间取得最佳平衡。此外，SLT还使用了基于置信度的门控机制，根据解码器的预测结果动态地调整压缩比例。

🖼️ 关键图片

📊 实验亮点

SLT在四个数学推理基准上进行了广泛的实验，结果表明，SLT在可比的压缩率下，比潜在推理基线实现了高22.7%的准确率。同时，与显式CoT相比，SLT将推理链长度减少了58.4%，而准确率仅下降了2.8%。这些结果充分证明了SLT在提高LLM推理效率和精度方面的有效性。

🎯 应用场景

SLT具有广泛的应用前景，可应用于各种需要LLM进行复杂推理的场景，例如数学问题求解、代码生成、知识图谱推理等。通过降低LLM的推理成本，SLT可以促进LLM在资源受限环境中的部署，并加速LLM在实际应用中的普及。此外，SLT的选择性压缩策略也有助于提高LLM的可解释性，使用户更容易理解LLM的推理过程。

📄 摘要（原文）

Explicit chain-of-thought (CoT) reasoning substantially improves the reasoning ability of large language models (LLMs), but incurs high inference cost due to lengthy autoregressive traces. Existing latent reasoning methods offer a promising alternative, yet they often treat reasoning as uniformly compressible, causing precision-critical intermediate steps to be overly compressed and thereby degrading reasoning accuracy. In this work, we propose Selective Latent Thinking (SLT), a framework that selectively compresses redundant reasoning spans into latent representations while preserving precision-critical spans as explicit CoT within the same reasoning trajectory. Specifically, SLT first uses a lightweight decoder to anticipate a short upcoming reasoning span, and then applies confidence-based gating to determine the longest span that can be reliably compressed. The accepted span is encoded into a compact latent representation to improve reasoning efficiency, while uncertain or precision-critical reasoning remains in explicit CoT form to preserve accuracy. To learn this selective compression policy, SLT adopts a three-stage training strategy that combines span-level latent compression, reliability-aware future reasoning prediction, and trajectory-level reinforcement learning to optimize the trade-off between answer correctness and reasoning cost. Extensive experiments across four mathematical reasoning benchmarks demonstrate that SLT achieves 22.7\% higher accuracy than latent reasoning baselines at comparable compression ratios, while reducing reasoning chain length by 58.4\% with only 2.8\% accuracy degradation compared to explicit CoT,Our code can be found in https://github.com/hunshi34/SLT.

Selective Latent Thinking: Adaptive Compression of LLM Reasoning Chains

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理