Large Language Model as Token Compressor and Decompressor

作者: Wenbing Li, Zikai Song, Jielei Zhang, Tianhao Zhao, Junkai Lin, Yiran Wang, Wei Yang

分类: cs.CL

发布日期: 2026-03-26

💡 一句话要点

提出基于LLM的自编码框架，实现文本token的高效压缩与解压缩

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 token压缩 自编码器 长文本处理 LoRA 自监督学习 内容自适应 Z-tokens

📋 核心要点

现有方法在处理长文本时，token数量庞大，计算成本高昂，限制了LLM的应用。
利用LLM的强大表征能力，将其作为自编码器，学习文本的压缩表示（Z-tokens），并能从Z-tokens重建原始文本。
实验表明，该方法在多个数据集上实现了显著的token缩减，同时保持了文本重建的质量和下游任务的性能。

📝 摘要（中文）

本文提出了一种新颖的观点，即现成的LLM可以作为优秀的token压缩器和解压缩器。为了验证这一观点，我们设计了一个自表达的自编码学习框架，该框架通过微调预训练的LLM，将长文本转换为紧凑的内部语言，即离散的、变长的潜在代码，称为Z-tokens，并能够从这些Z-tokens中精确地重建原始文本。由此产生的表示是内容自适应的：语义密集的片段接收更多的Z-tokens，而冗余或可预测的区域则通过轻量级的基于LoRA的适配器头进行积极的压缩。实验结果表明，我们的方法在Wikipedia、CNN/DailyMail、HotpotQA和Qulac风格的长查询数据集上实现了高达18倍的token缩减，同时保持了重建的保真度和下游性能。这种简单而有效的设计支持包括prompt压缩和Z-token空间中的自回归生成等应用，为token高效的长上下文推理提供了一种潜在途径。

🔬 方法详解

问题定义：现有的大语言模型在处理长文本时，由于token数量的限制，面临着计算成本高昂和信息损失的挑战。传统的压缩方法可能无法很好地保留语义信息，或者需要复杂的预处理和后处理步骤。因此，如何高效地压缩长文本，同时保持其语义完整性，是一个亟待解决的问题。

核心思路：本文的核心思路是利用预训练大语言模型（LLM）强大的表征能力，将其作为一个自编码器，学习一种新的、压缩的文本表示形式，称为Z-tokens。通过训练LLM将长文本编码为Z-tokens，并从Z-tokens解码回原始文本，实现文本的压缩和解压缩。这种方法的核心在于让LLM自动学习文本中的冗余信息，并将其压缩掉，从而减少token数量。

技术框架：整体框架是一个自编码器结构，包括编码器和解码器。编码器是一个微调后的预训练LLM，负责将输入文本编码为Z-tokens序列。解码器也是一个微调后的预训练LLM，负责将Z-tokens序列解码为原始文本。为了实现内容自适应的压缩，使用了基于LoRA的适配器头，使得模型可以根据文本的语义密度动态地调整压缩率。整个训练过程采用自监督的方式，通过最小化重建误差来优化模型参数。

关键创新：该方法最重要的创新点在于将LLM作为一个通用的token压缩器和解压缩器，而无需额外的领域知识或复杂的预处理步骤。Z-tokens是一种离散的、变长的潜在代码，可以有效地表示文本的语义信息。此外，基于LoRA的适配器头使得模型可以实现内容自适应的压缩，从而更好地平衡压缩率和信息损失。

关键设计：关键的设计包括：1) 使用预训练LLM作为编码器和解码器，充分利用其强大的表征能力；2) 引入Z-tokens作为文本的压缩表示，Z-tokens的具体形式（例如，词汇表大小）需要根据具体任务进行调整；3) 使用基于LoRA的适配器头来实现内容自适应的压缩，LoRA的秩（rank）是一个重要的超参数，需要根据实验结果进行调整；4) 使用重建损失函数来优化模型参数，例如交叉熵损失函数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在Wikipedia、CNN/DailyMail、HotpotQA和Qulac风格的长查询数据集上实现了显著的token缩减，最高可达18倍。同时，该方法保持了文本重建的保真度，并且在下游任务上取得了与原始文本相当甚至更好的性能。例如，在某些数据集上，使用Z-tokens进行推理的性能超过了使用原始文本的性能，这表明Z-tokens可以有效地提取文本中的关键信息。

🎯 应用场景

该研究成果具有广泛的应用前景，包括：1) prompt压缩，可以减少LLM处理prompt的token数量，提高效率；2) 在Z-token空间中进行自回归生成，可以生成更长、更连贯的文本；3) 降低长文本处理的计算成本，使得LLM可以应用于更多资源受限的场景；4) 提升长文本检索和摘要的效率。该方法为token高效的长上下文推理提供了一种新的思路。

📄 摘要（原文）

In this paper, we establish the novel insight that an off-the-shelf LLM can function as an excellent token compressor and decompressor. To demonstrate, we design a self-expressive autoencoding learning framework fine-tunes a pretrained LLM to translate long texts into a compact internal language of discrete, variable-length latent codes, termed Z-tokens, and to reconstruct the original text exactly from them. The resulting representation is content-adaptive: semantically dense segments receive more Z-tokens, while redundant or predictable regions are aggressively compressed, via lightweight LoRA-based adapter heads. Empirically, our method achieves up to 18 times token reduction on Wikipedia, CNN/DailyMail, HotpotQA, and Qulac-style long-query datasets, while preserving reconstruction fidelity and downstream performance. This simple yet effective design supports applications including prompt compression and autoregressive generation directly in the Z-token space, offering a potential pathway toward token-efficient long-context reasoning.

Large Language Model as Token Compressor and Decompressor

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理