Compressing Sequences in the Latent Embedding Space: $K$-Token Merging for Large Language Models

📄 arXiv: 2604.15153v1 📥 PDF

作者: Zihao Xu, John Harvill, Ziwei Fan, Yizhou Sun, Hao Ding, Hao Wang

分类: cs.CL, cs.AI

发布日期: 2026-04-16

备注: Under Review


💡 一句话要点

提出K-Token Merging,通过潜在空间压缩减少LLM长文本处理的计算成本。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 token压缩 潜在空间 长文本处理 LoRA 嵌入合并 模型优化

📋 核心要点

  1. 长文本处理对LLM带来巨大的计算和内存负担,现有token压缩方法忽略了潜在嵌入空间的效率问题。
  2. K-Token Merging在潜在空间中合并连续的K个token嵌入,使用轻量级编码器进行压缩。
  3. 实验表明,该方法在结构推理、情感分类和代码编辑任务上,能显著减少输入长度,同时保持性能。

📝 摘要(中文)

大型语言模型(LLMs)在处理长提示时会产生显著的计算和内存成本,因为完全自注意力机制的复杂度与输入长度呈平方关系。Token压缩旨在通过减少表示输入的token数量来应对这一挑战。然而,现有的提示压缩方法主要在token空间中操作,忽略了潜在嵌入空间中的低效性。本文提出了K-Token Merging,这是一种潜在空间压缩框架,它通过轻量级编码器将每个连续的K个token嵌入块合并为单个嵌入。压缩后的序列由LoRA适配的LLM处理,而生成过程仍然在原始词汇表中进行。在结构推理(Textualized Tree)、情感分类(Amazon Reviews)和代码编辑(CommitPackFT)上的实验表明,K-Token Merging位于性能与压缩的帕累托前沿,实现了高达75%的输入长度缩减,同时性能下降最小。

🔬 方法详解

问题定义:大型语言模型在处理长文本时,由于自注意力机制的复杂度与输入长度呈平方关系,导致计算和内存成本显著增加。现有的token压缩方法主要在离散的token空间进行操作,忽略了连续token嵌入在潜在空间中可能存在的冗余信息,未能充分利用潜在空间进行高效压缩。

核心思路:K-Token Merging的核心思路是在LLM的潜在嵌入空间中进行token压缩,通过合并相邻的K个token嵌入来减少序列长度。这种方法旨在利用潜在空间中token嵌入的连续性和相关性,从而实现更有效的压缩,同时保留关键信息。

技术框架:K-Token Merging框架包含以下主要步骤:1) 嵌入:将输入文本转换为token嵌入序列。2) 合并:将连续的K个token嵌入块通过一个轻量级编码器(例如,一个小型Transformer或MLP)合并为一个嵌入向量。3) LLM处理:将压缩后的嵌入序列输入到经过LoRA适配的LLM中进行处理。4) 生成:LLM的输出仍然在原始词汇空间中,确保下游任务的兼容性。

关键创新:K-Token Merging的关键创新在于它将token压缩操作从离散的token空间转移到连续的潜在嵌入空间。与直接操作token相比,在潜在空间中进行合并可以更好地捕捉token之间的语义关系,从而实现更高的压缩率,同时减少信息损失。此外,使用轻量级编码器进行合并操作,保证了压缩过程的效率。

关键设计:K-Token Merging的关键设计包括:1) K值的选择:K值决定了压缩率,需要根据具体任务和性能要求进行调整。2) 轻量级编码器的选择:编码器的结构和参数量需要平衡压缩性能和计算成本。可以使用小型Transformer或MLP等结构。3) LoRA适配:使用LoRA(Low-Rank Adaptation)对LLM进行微调,以适应压缩后的输入序列。LoRA通过引入低秩矩阵来更新LLM的权重,从而减少了微调的参数量,提高了训练效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,K-Token Merging在结构推理(Textualized Tree)、情感分类(Amazon Reviews)和代码编辑(CommitPackFT)等任务上表现出色。该方法能够在实现高达75%的输入长度缩减的同时,保持minimal的性能下降,位于性能与压缩的帕累托前沿。例如,在某些任务上,K-Token Merging甚至可以超越未压缩的基线模型。

🎯 应用场景

K-Token Merging具有广泛的应用前景,包括但不限于:长文档摘要、代码生成、对话系统、机器翻译等。通过减少LLM处理长文本的计算和内存成本,该方法可以提高LLM在资源受限环境中的部署能力,并加速LLM在各个领域的应用。未来,该方法可以与其他压缩技术相结合,进一步提高压缩率和性能。

📄 摘要(原文)

Large Language Models (LLMs) incur significant computational and memory costs when processing long prompts, as full self-attention scales quadratically with input length. Token compression aims to address this challenge by reducing the number of tokens representing inputs. However, existing prompt-compression approaches primarily operate in token space and overlook inefficiencies in the latent embedding space. In this paper, we propose K-Token Merging, a latent-space compression framework that merges each contiguous block of K token embeddings into a single embedding via a lightweight encoder. The compressed sequence is processed by a LoRA-adapted LLM, while generation remains in the original vocabulary. Experiments on structural reasoning (Textualized Tree), sentiment classification (Amazon Reviews), and code editing (CommitPackFT) show that K-Token Merging lies on the Pareto frontier of performance vs. compression, achieving up to 75% input length reduction with minimal performance degradation.