Large Language Model as Token Compressor and Decompressor

📄 arXiv: 2603.25340v1 📥 PDF

作者: Wenbing Li, Zikai Song, Jielei Zhang, Tianhao Zhao, Junkai Lin, Yiran Wang, Wei Yang

分类: cs.CL

发布日期: 2026-03-26


💡 一句话要点

提出基于LLM的自编码框架,实现文本token的高效压缩与解压缩

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 token压缩 自编码器 长文本处理 LoRA 自监督学习 内容自适应 Z-tokens

📋 核心要点

  1. 现有方法在处理长文本时,token数量庞大,计算成本高昂,限制了LLM的应用。
  2. 利用LLM的强大表征能力,将其作为自编码器,学习文本的压缩表示(Z-tokens),并能从Z-tokens重建原始文本。
  3. 实验表明,该方法在多个数据集上实现了显著的token缩减,同时保持了文本重建的质量和下游任务的性能。

📝 摘要(中文)

本文提出了一种新颖的观点,即现成的LLM可以作为优秀的token压缩器和解压缩器。为了验证这一观点,我们设计了一个自表达的自编码学习框架,该框架通过微调预训练的LLM,将长文本转换为紧凑的内部语言,即离散的、变长的潜在代码,称为Z-tokens,并能够从这些Z-tokens中精确地重建原始文本。由此产生的表示是内容自适应的:语义密集的片段接收更多的Z-tokens,而冗余或可预测的区域则通过轻量级的基于LoRA的适配器头进行积极的压缩。实验结果表明,我们的方法在Wikipedia、CNN/DailyMail、HotpotQA和Qulac风格的长查询数据集上实现了高达18倍的token缩减,同时保持了重建的保真度和下游性能。这种简单而有效的设计支持包括prompt压缩和Z-token空间中的自回归生成等应用,为token高效的长上下文推理提供了一种潜在途径。

🔬 方法详解

问题定义:现有的大语言模型在处理长文本时,由于token数量的限制,面临着计算成本高昂和信息损失的挑战。传统的压缩方法可能无法很好地保留语义信息,或者需要复杂的预处理和后处理步骤。因此,如何高效地压缩长文本,同时保持其语义完整性,是一个亟待解决的问题。

核心思路:本文的核心思路是利用预训练大语言模型(LLM)强大的表征能力,将其作为一个自编码器,学习一种新的、压缩的文本表示形式,称为Z-tokens。通过训练LLM将长文本编码为Z-tokens,并从Z-tokens解码回原始文本,实现文本的压缩和解压缩。这种方法的核心在于让LLM自动学习文本中的冗余信息,并将其压缩掉,从而减少token数量。

技术框架:整体框架是一个自编码器结构,包括编码器和解码器。编码器是一个微调后的预训练LLM,负责将输入文本编码为Z-tokens序列。解码器也是一个微调后的预训练LLM,负责将Z-tokens序列解码为原始文本。为了实现内容自适应的压缩,使用了基于LoRA的适配器头,使得模型可以根据文本的语义密度动态地调整压缩率。整个训练过程采用自监督的方式,通过最小化重建误差来优化模型参数。

关键创新:该方法最重要的创新点在于将LLM作为一个通用的token压缩器和解压缩器,而无需额外的领域知识或复杂的预处理步骤。Z-tokens是一种离散的、变长的潜在代码,可以有效地表示文本的语义信息。此外,基于LoRA的适配器头使得模型可以实现内容自适应的压缩,从而更好地平衡压缩率和信息损失。

关键设计:关键的设计包括:1) 使用预训练LLM作为编码器和解码器,充分利用其强大的表征能力;2) 引入Z-tokens作为文本的压缩表示,Z-tokens的具体形式(例如,词汇表大小)需要根据具体任务进行调整;3) 使用基于LoRA的适配器头来实现内容自适应的压缩,LoRA的秩(rank)是一个重要的超参数,需要根据实验结果进行调整;4) 使用重建损失函数来优化模型参数,例如交叉熵损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在Wikipedia、CNN/DailyMail、HotpotQA和Qulac风格的长查询数据集上实现了显著的token缩减,最高可达18倍。同时,该方法保持了文本重建的保真度,并且在下游任务上取得了与原始文本相当甚至更好的性能。例如,在某些数据集上,使用Z-tokens进行推理的性能超过了使用原始文本的性能,这表明Z-tokens可以有效地提取文本中的关键信息。

🎯 应用场景

该研究成果具有广泛的应用前景,包括:1) prompt压缩,可以减少LLM处理prompt的token数量,提高效率;2) 在Z-token空间中进行自回归生成,可以生成更长、更连贯的文本;3) 降低长文本处理的计算成本,使得LLM可以应用于更多资源受限的场景;4) 提升长文本检索和摘要的效率。该方法为token高效的长上下文推理提供了一种新的思路。

📄 摘要(原文)

In this paper, we establish the novel insight that an off-the-shelf LLM can function as an excellent token compressor and decompressor. To demonstrate, we design a self-expressive autoencoding learning framework fine-tunes a pretrained LLM to translate long texts into a compact internal language of discrete, variable-length latent codes, termed Z-tokens, and to reconstruct the original text exactly from them. The resulting representation is content-adaptive: semantically dense segments receive more Z-tokens, while redundant or predictable regions are aggressively compressed, via lightweight LoRA-based adapter heads. Empirically, our method achieves up to 18 times token reduction on Wikipedia, CNN/DailyMail, HotpotQA, and Qulac-style long-query datasets, while preserving reconstruction fidelity and downstream performance. This simple yet effective design supports applications including prompt compression and autoregressive generation directly in the Z-token space, offering a potential pathway toward token-efficient long-context reasoning.