Shorthand for Thought: Compressing LLM Reasoning via Entropy-Guided Supertokens

📄 arXiv: 2604.26355v1 📥 PDF

作者: Zhenyu Zhao, Sander Land, Dan Bikel, Waseem Alshikh

分类: cs.CL

发布日期: 2026-04-29


💡 一句话要点

提出基于熵引导Supertokens的LLM推理压缩方法,提升推理效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理压缩 Supertokens 熵引导 数学推理

📋 核心要点

  1. 现有LLM推理计算成本高,但推理轨迹的token级别信息结构未被充分利用。
  2. 利用推理token的熵差异,通过BPE合并构建Supertokens,压缩推理轨迹。
  3. 实验表明,该方法在不损失准确性的前提下,平均缩短推理轨迹8.1%。

📝 摘要(中文)

大型语言模型(LLM)的推理过程计算成本高昂,但推理轨迹的token级别信息结构尚未得到充分探索。我们观察到推理tokens分为两种功能类型:低熵的“结构性”tokens(重复出现的短语,用于构建推理过程)和较高熵的“有机”tokens(推动解决方案的特定于问题的内容)。这种不对称性促使我们设计了一个简单的、模型无关的压缩流程:在模型自身的推理轨迹上应用跨词BPE合并,以获得捕获频繁结构模式的“supertokens”,然后通过监督微调教导模型采用它们。在三个模型系列和五个数学推理基准测试中,我们的方法平均缩短了8.1%的推理轨迹,并且在任何模型-基准测试对上都没有统计学意义上的准确性损失。除了压缩之外,supertokens还可以作为可解释的推理步骤注释(回溯、验证、策略转变),一目了然地揭示模型的高级策略。对结构性类别之间转换的分析揭示了正确和错误轨迹之间的系统性差异:正确的轨迹显示出有效的恢复(回溯后跟策略转变和验证),而错误的轨迹主要由混乱循环(重复的对冲和未解决的矛盾)主导。这些诊断信号表明了在基于RL的推理训练中,可以应用于奖励塑造和提前停止。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在推理过程中计算成本高昂的问题。现有方法缺乏对推理轨迹中token级别信息结构的有效利用,导致推理过程冗余,效率低下。特别是在数学推理等任务中,模型需要生成大量的中间步骤,这些步骤中包含许多重复的结构性短语,增加了计算负担。

核心思路:论文的核心思路是观察到LLM推理过程中生成的tokens具有不同的熵值,可以分为低熵的“结构性”tokens和高熵的“有机”tokens。结构性tokens通常是重复出现的短语,用于构建推理过程的框架,而有机tokens则包含特定于问题的内容。基于这种观察,论文提出通过压缩结构性tokens来减少推理轨迹的长度,从而降低计算成本。

技术框架:该方法包含两个主要阶段:Supertokens生成和模型微调。首先,在模型的推理轨迹上应用跨词BPE(Byte Pair Encoding)合并算法,以识别并合并频繁出现的结构性短语,生成Supertokens。然后,使用监督微调的方式,教导模型学习使用这些Supertokens,从而在推理过程中生成更短的轨迹。整个流程是模型无关的,可以应用于不同的LLM架构。

关键创新:该方法最重要的创新点在于利用了推理tokens的熵差异,并基于此提出了Supertokens的概念。与传统的tokenization方法不同,Supertokens能够捕获推理过程中频繁出现的结构性模式,从而实现更有效的压缩。此外,该方法还提供了一种可解释的推理步骤注释,可以帮助理解模型的推理策略。

关键设计:关键设计包括以下几个方面:1) 使用跨词BPE合并算法生成Supertokens,该算法能够有效地识别并合并频繁出现的短语。2) 使用监督微调的方式教导模型学习使用Supertokens,损失函数通常是交叉熵损失。3) 通过分析结构性类别之间的转换,可以诊断模型的推理过程,例如识别混乱循环和有效的恢复步骤。具体的参数设置和网络结构取决于所使用的LLM架构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在三个模型系列和五个数学推理基准测试中,平均缩短了8.1%的推理轨迹,并且在任何模型-基准测试对上都没有统计学意义上的准确性损失。这表明该方法能够在不牺牲性能的前提下,有效地压缩LLM的推理过程。

🎯 应用场景

该研究成果可应用于各种需要LLM进行复杂推理的场景,例如数学问题求解、代码生成、知识图谱推理等。通过降低推理计算成本,可以提高LLM在资源受限环境中的部署能力,并加速LLM在实际应用中的普及。此外,该方法提供的可解释性分析工具,有助于理解和改进LLM的推理能力。

📄 摘要(原文)

Reasoning in Large Language Models incurs significant inference-time compute, yet the token-level information structure of reasoning traces remains underexplored. We observe that reasoning tokens split into two functional types: low-entropy \textit{structural} tokens (recurring phrases that scaffold the reasoning process) and higher-entropy \textit{organic} tokens (problem-specific content that drives toward a solution). This asymmetry motivates a simple, model-agnostic compression pipeline: apply cross-word BPE merges on a model's own reasoning traces to derive \textit{supertokens} that capture frequent structural patterns, then teach the model to adopt them via supervised fine-tuning. Across three model families and five mathematical reasoning benchmarks, our approach shortens reasoning traces by 8.1\% on average with no statistically significant accuracy loss on any model--benchmark pair. Beyond compression, supertokens act as interpretable reasoning-move annotations (backtracking, verification, strategy shifts), exposing the model's high-level strategy at a glance. Analyzing transitions between structural categories reveals systematic differences between correct and incorrect traces: correct traces show productive recovery (backtracking followed by strategy shifts and verification), while incorrect traces are dominated by confusion cycles (repeated hedging and unresolved contradictions). These diagnostic signals suggest applications in reward shaping and early stopping for RL-based reasoning training.