Compressing Sequences in the Latent Embedding Space: $K$-Token Merging for Large Language Models

作者: Zihao Xu, John Harvill, Ziwei Fan, Yizhou Sun, Hao Ding, Hao Wang

分类: cs.CL, cs.AI

发布日期: 2026-04-16

备注: Under Review

💡 一句话要点

提出K-Token Merging，通过潜在空间压缩减少LLM长文本处理的计算成本。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 token压缩 潜在空间 长文本处理 LoRA 嵌入合并 模型优化

📋 核心要点

长文本处理对LLM带来巨大的计算和内存负担，现有token压缩方法忽略了潜在嵌入空间的效率问题。
K-Token Merging在潜在空间中合并连续的K个token嵌入，使用轻量级编码器进行压缩。
实验表明，该方法在结构推理、情感分类和代码编辑任务上，能显著减少输入长度，同时保持性能。

📝 摘要（中文）

大型语言模型(LLMs)在处理长提示时会产生显著的计算和内存成本，因为完全自注意力机制的复杂度与输入长度呈平方关系。Token压缩旨在通过减少表示输入的token数量来应对这一挑战。然而，现有的提示压缩方法主要在token空间中操作，忽略了潜在嵌入空间中的低效性。本文提出了K-Token Merging，这是一种潜在空间压缩框架，它通过轻量级编码器将每个连续的K个token嵌入块合并为单个嵌入。压缩后的序列由LoRA适配的LLM处理，而生成过程仍然在原始词汇表中进行。在结构推理(Textualized Tree)、情感分类(Amazon Reviews)和代码编辑(CommitPackFT)上的实验表明，K-Token Merging位于性能与压缩的帕累托前沿，实现了高达75%的输入长度缩减，同时性能下降最小。

🔬 方法详解

问题定义：大型语言模型在处理长文本时，由于自注意力机制的复杂度与输入长度呈平方关系，导致计算和内存成本显著增加。现有的token压缩方法主要在离散的token空间进行操作，忽略了连续token嵌入在潜在空间中可能存在的冗余信息，未能充分利用潜在空间进行高效压缩。

核心思路：K-Token Merging的核心思路是在LLM的潜在嵌入空间中进行token压缩，通过合并相邻的K个token嵌入来减少序列长度。这种方法旨在利用潜在空间中token嵌入的连续性和相关性，从而实现更有效的压缩，同时保留关键信息。

技术框架：K-Token Merging框架包含以下主要步骤：1) 嵌入：将输入文本转换为token嵌入序列。2) 合并：将连续的K个token嵌入块通过一个轻量级编码器（例如，一个小型Transformer或MLP）合并为一个嵌入向量。3) LLM处理：将压缩后的嵌入序列输入到经过LoRA适配的LLM中进行处理。4) 生成：LLM的输出仍然在原始词汇空间中，确保下游任务的兼容性。

关键创新：K-Token Merging的关键创新在于它将token压缩操作从离散的token空间转移到连续的潜在嵌入空间。与直接操作token相比，在潜在空间中进行合并可以更好地捕捉token之间的语义关系，从而实现更高的压缩率，同时减少信息损失。此外，使用轻量级编码器进行合并操作，保证了压缩过程的效率。

关键设计：K-Token Merging的关键设计包括：1) K值的选择：K值决定了压缩率，需要根据具体任务和性能要求进行调整。2) 轻量级编码器的选择：编码器的结构和参数量需要平衡压缩性能和计算成本。可以使用小型Transformer或MLP等结构。3) LoRA适配：使用LoRA（Low-Rank Adaptation）对LLM进行微调，以适应压缩后的输入序列。LoRA通过引入低秩矩阵来更新LLM的权重，从而减少了微调的参数量，提高了训练效率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，K-Token Merging在结构推理（Textualized Tree）、情感分类（Amazon Reviews）和代码编辑（CommitPackFT）等任务上表现出色。该方法能够在实现高达75%的输入长度缩减的同时，保持minimal的性能下降，位于性能与压缩的帕累托前沿。例如，在某些任务上，K-Token Merging甚至可以超越未压缩的基线模型。

🎯 应用场景

K-Token Merging具有广泛的应用前景，包括但不限于：长文档摘要、代码生成、对话系统、机器翻译等。通过减少LLM处理长文本的计算和内存成本，该方法可以提高LLM在资源受限环境中的部署能力，并加速LLM在各个领域的应用。未来，该方法可以与其他压缩技术相结合，进一步提高压缩率和性能。

📄 摘要（原文）

Large Language Models (LLMs) incur significant computational and memory costs when processing long prompts, as full self-attention scales quadratically with input length. Token compression aims to address this challenge by reducing the number of tokens representing inputs. However, existing prompt-compression approaches primarily operate in token space and overlook inefficiencies in the latent embedding space. In this paper, we propose K-Token Merging, a latent-space compression framework that merges each contiguous block of K token embeddings into a single embedding via a lightweight encoder. The compressed sequence is processed by a LoRA-adapted LLM, while generation remains in the original vocabulary. Experiments on structural reasoning (Textualized Tree), sentiment classification (Amazon Reviews), and code editing (CommitPackFT) show that K-Token Merging lies on the Pareto frontier of performance vs. compression, achieving up to 75% input length reduction with minimal performance degradation.

Compressing Sequences in the Latent Embedding Space: $K$-Token Merging for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理