Meta-Soft: Leveraging Composable Meta-Tokens for Context-Preserving KV Cache Compression

📄 arXiv: 2605.22337v1 📥 PDF

作者: Wei Luo, Yi Huang, Songchen Ma, Huanyu Qu, Jiang Cai, Mingkun Xu

分类: cs.AI

发布日期: 2026-05-21

备注: 9 pages, 2 figures


💡 一句话要点

提出Meta-Soft以解决KV缓存压缩中的信息损失问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: KV缓存 动态压缩 软令牌 信息保留 大语言模型 自然语言处理 注意力机制

📋 核心要点

  1. 现有KV缓存驱逐方法基于固定软令牌,无法动态适应不同输入,导致信息丢失和上下文断裂。
  2. 本文提出Meta-Soft,通过构建可学习的正交基矩阵和选择网络,动态合成针对性的软令牌,保持上下文信息。
  3. 实验表明,Meta-Soft在多个数据集上超越现有方法,显著提升KV缓存的压缩效果和信息保留能力。

📝 摘要(中文)

大语言模型中的KV缓存面临时间复杂度线性增长的问题,导致在处理长上下文时出现内存膨胀和解码效率降低。现有基于固定软令牌的方法无法动态适应不同输入提示,且丢弃的KV对永久性丢失信息,造成上下文断裂。为此,本文提出Meta-Soft,一个基于探测驱动的动态压缩框架,通过构建可学习的正交基矩阵和使用Gumbel-Softmax的选择网络,动态合成最具针对性的软令牌,并引入基于注意力流的集成机制,有效保持丢弃上下文信息。实验结果表明,Meta-Soft在多个数据集上优于现有最先进的驱逐方法,为KV缓存压缩提供了新方案。

🔬 方法详解

问题定义:本文旨在解决大语言模型中KV缓存的动态适应性不足和信息丢失问题。现有方法依赖固定的软令牌,无法有效捕捉复杂的任务相关性,导致丢弃的KV对永久性丢失信息。

核心思路:Meta-Soft的核心思路是通过构建一个可学习的正交基矩阵和使用Gumbel-Softmax选择网络,动态合成最具针对性的软令牌,从而在保留上下文信息的同时实现KV缓存的压缩。

技术框架:整体架构包括一个元库、选择网络和基于注意力流的集成机制。元库用于存储可学习的正交基,选择网络生成稀疏组合权重,集成机制则将丢弃令牌的语义信息重新分配给保留令牌。

关键创新:最重要的创新在于引入了动态合成的软令牌和基于注意力流的信息重分配机制,这与现有方法的静态性形成鲜明对比,能够更好地适应不同输入的上下文。

关键设计:选择网络使用Gumbel-Softmax生成可微分的稀疏组合权重,确保动态合成的软令牌能够有效捕捉输入特征。同时,注意力流机制通过重新分配语义信息,保持了上下文的完整性。实验中使用了多个数据集进行验证,展示了该方法的有效性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

在多个数据集上的实验结果显示,Meta-Soft方法在KV缓存压缩方面显著优于现有最先进的驱逐方法,具体性能提升幅度达到XX%,有效减少了信息丢失和上下文断裂的现象。

🎯 应用场景

Meta-Soft的研究成果在自然语言处理、对话系统和长文本生成等领域具有广泛的应用潜力。通过提高KV缓存的压缩效率和信息保留能力,可以显著提升大语言模型在处理长上下文时的性能,进而推动智能助手、自动翻译等应用的发展。

📄 摘要(原文)

The KV cache used in large language models has linearly growing time complexity, so LLMs face memory blow-up and reduced decoding efficiency when they process long contexts.Current KV Cache eviction has become an important research direction; however, existing methods based on fixed Soft Tokens (e.g., Judge Q) rely on a static parameter set as the query to evaluate the importance of KV pairs, so they cannot adapt dynamically to different input prompts, and they cannot precisely capture complex and changing task relevance.Also, evicted KV pairs are discarded permanently, so this causes irreversible information loss and context breaks. To address this problem, we propose Meta-Soft, a dynamic compression framework based on probe-driven context integration. Specifically, we build a meta-library with a learnable orthogonal basis matrix $\mathcal{L}$, and we use a selector network with Gumbel-Softmax to produce differentiable sparse combination weights, so we dynamically synthesize the most targeted $k$ Soft Tokens from the input prompt features.We append these Soft Tokens to the end of the input sequence to probe key information. We also introduce an attention-flow based integration mechanism, which redistributes the semantic information of removed tokens into retained tokens, and this keeps the dropped context information effectively.Experiments on multiple datasets show that our method outperforms existing state-of-the-art eviction methods and provides a new solution for KV Cache compression.