Latent-Condensed Transformer for Efficient Long Context Modeling
作者: Zeng You, Yaofo Chen, Qiuwu Chen, Ying Sun, Shuhai Zhang, Yingjian Li, Yaowei Wang, Mingkui Tan
分类: cs.CL
发布日期: 2026-04-14
备注: Accepted by ACL 2026
💡 一句话要点
提出Latent-Condensed Transformer,高效处理长文本建模中的KV缓存和计算复杂度问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长文本建模 注意力机制 KV缓存压缩 计算复杂度降低 潜在空间 查询感知池化 锚点选择 Transformer
📋 核心要点
- 现有长文本处理方法在降低KV缓存和计算复杂度上存在局限,稀疏注意力无法直接应用于压缩后的潜在空间。
- LCA的核心思想是在MLA的潜在空间中直接压缩上下文,解耦语义向量和位置键,并分别进行聚合和选择。
- 实验结果表明,LCA在长文本处理中显著提升了预填充速度并减少了KV缓存,同时保持了良好的性能。
📝 摘要(中文)
大型语言模型(LLMs)在处理长文本时面临着因键-值(KV)缓存线性增长和自注意力机制的二次复杂度带来的巨大挑战。现有方法通常分别解决这些瓶颈:多头潜在注意力(MLA)通过将tokens投影到低维潜在空间来减少KV缓存,而稀疏注意力则降低计算复杂度。然而,稀疏方法无法直接应用于MLA压缩后的潜在结构,从而错失了联合优化的机会。本文提出了潜在压缩注意力(LCA),它直接在MLA的潜在空间中压缩上下文,其中表示被解耦为语义潜在向量和位置键。LCA通过查询感知的池化分别聚合语义向量,并通过锚点选择保留位置键。这种方法在不增加参数的情况下,联合降低了计算成本和KV缓存。除了MLA,LCA的设计与架构无关,可以轻松扩展到其他注意力机制,如GQA。理论上,我们证明了一个与长度无关的误差界限。实验表明,LCA在128K上下文长度下实现了高达2.5倍的预填充加速和90%的KV缓存减少,同时保持了具有竞争力的性能。
🔬 方法详解
问题定义:大型语言模型处理长文本时,KV缓存随文本长度线性增长,自注意力计算复杂度呈二次方增长,导致计算和存储成本高昂。现有方法如MLA虽然能降低KV缓存,但稀疏注意力等方法无法直接应用于其压缩后的潜在空间,无法实现联合优化。
核心思路:LCA的核心思路是在MLA的潜在空间中,将token表示解耦为语义潜在向量和位置键,然后分别进行处理。语义向量通过查询感知的池化进行聚合,位置键通过锚点选择进行保留。这样可以在压缩上下文的同时,尽可能保留关键信息。
技术框架:LCA主要包含两个阶段:首先,利用MLA将输入tokens投影到低维潜在空间,得到语义潜在向量和位置键。然后,LCA模块对这些潜在向量和位置键进行压缩。对于语义向量,使用查询感知的池化方法,根据当前查询的重要性对不同的语义向量进行加权平均。对于位置键,使用锚点选择方法,选择最具代表性的位置键来保留位置信息。最后,将压缩后的语义向量和位置键用于后续的注意力计算。
关键创新:LCA的关键创新在于它能够在MLA的潜在空间中直接进行上下文压缩,实现了计算复杂度和KV缓存的联合优化。与现有方法相比,LCA无需额外的参数,并且可以与不同的注意力机制(如GQA)兼容。此外,LCA将语义信息和位置信息分离处理,使得压缩过程更加高效。
关键设计:LCA的关键设计包括:1) 查询感知的池化方法,使用softmax函数对查询和语义向量之间的相似度进行归一化,得到权重,然后对语义向量进行加权平均。2) 锚点选择方法,使用聚类算法(如K-means)选择最具代表性的位置键作为锚点。3) 误差界限的理论证明,证明了LCA的压缩误差与文本长度无关,保证了LCA在长文本处理中的有效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LCA在128K上下文长度下实现了高达2.5倍的预填充加速和90%的KV缓存减少,同时保持了与基线模型相当的性能。这表明LCA能够在显著降低计算成本和存储成本的同时,保持模型的准确性。LCA在多个长文本任务上都取得了具有竞争力的结果。
🎯 应用场景
LCA适用于需要处理长文本的各种应用场景,例如长文档摘要、长篇小说生成、代码理解、视频分析等。通过降低计算复杂度和KV缓存,LCA可以使大型语言模型更高效地处理这些任务,并降低部署成本。此外,LCA的架构无关性使其可以轻松集成到现有的模型中,具有广泛的应用前景。
📄 摘要(原文)
Large language models (LLMs) face significant challenges in processing long contexts due to the linear growth of the key-value (KV) cache and quadratic complexity of self-attention. Existing approaches address these bottlenecks separately: Multi-head Latent Attention (MLA) reduces the KV cache by projecting tokens into a low-dimensional latent space, while sparse attention reduces computation. However, sparse methods cannot operate natively on MLA's compressed latent structure, missing opportunities for joint optimization. In this paper, we propose Latent-Condensed Attention (LCA), which directly condenses context within MLA's latent space, where the representation is disentangled into semantic latent vectors and positional keys. LCA separately aggregates semantic vectors via query-aware pooling and preserves positional keys via anchor selection. This approach jointly reduces both computational cost and KV cache without adding parameters. Beyond MLA, LCA's design is architecture-agnostic and readily extends to other attention mechanisms such as GQA. Theoretically, we prove a length-independent error bound. Experiments show LCA achieves up to 2.5$\times$ prefilling speedup and 90% KV cache reduction at 128K context while maintaining competitive performance.