Latent-Condensed Transformer for Efficient Long Context Modeling

作者: Zeng You, Yaofo Chen, Qiuwu Chen, Ying Sun, Shuhai Zhang, Yingjian Li, Yaowei Wang, Mingkui Tan

分类: cs.CL

发布日期: 2026-04-14

备注: Accepted by ACL 2026

💡 一句话要点

提出Latent-Condensed Transformer，高效处理长文本建模中的KV缓存和计算复杂度问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长文本建模 注意力机制 KV缓存压缩 计算复杂度降低 潜在空间 查询感知池化 锚点选择 Transformer

📋 核心要点

现有长文本处理方法在降低KV缓存和计算复杂度上存在局限，稀疏注意力无法直接应用于压缩后的潜在空间。
LCA的核心思想是在MLA的潜在空间中直接压缩上下文，解耦语义向量和位置键，并分别进行聚合和选择。
实验结果表明，LCA在长文本处理中显著提升了预填充速度并减少了KV缓存，同时保持了良好的性能。

📝 摘要（中文）

大型语言模型（LLMs）在处理长文本时面临着因键-值（KV）缓存线性增长和自注意力机制的二次复杂度带来的巨大挑战。现有方法通常分别解决这些瓶颈：多头潜在注意力（MLA）通过将tokens投影到低维潜在空间来减少KV缓存，而稀疏注意力则降低计算复杂度。然而，稀疏方法无法直接应用于MLA压缩后的潜在结构，从而错失了联合优化的机会。本文提出了潜在压缩注意力（LCA），它直接在MLA的潜在空间中压缩上下文，其中表示被解耦为语义潜在向量和位置键。LCA通过查询感知的池化分别聚合语义向量，并通过锚点选择保留位置键。这种方法在不增加参数的情况下，联合降低了计算成本和KV缓存。除了MLA，LCA的设计与架构无关，可以轻松扩展到其他注意力机制，如GQA。理论上，我们证明了一个与长度无关的误差界限。实验表明，LCA在128K上下文长度下实现了高达2.5倍的预填充加速和90%的KV缓存减少，同时保持了具有竞争力的性能。

🔬 方法详解

问题定义：大型语言模型处理长文本时，KV缓存随文本长度线性增长，自注意力计算复杂度呈二次方增长，导致计算和存储成本高昂。现有方法如MLA虽然能降低KV缓存，但稀疏注意力等方法无法直接应用于其压缩后的潜在空间，无法实现联合优化。

核心思路：LCA的核心思路是在MLA的潜在空间中，将token表示解耦为语义潜在向量和位置键，然后分别进行处理。语义向量通过查询感知的池化进行聚合，位置键通过锚点选择进行保留。这样可以在压缩上下文的同时，尽可能保留关键信息。

技术框架：LCA主要包含两个阶段：首先，利用MLA将输入tokens投影到低维潜在空间，得到语义潜在向量和位置键。然后，LCA模块对这些潜在向量和位置键进行压缩。对于语义向量，使用查询感知的池化方法，根据当前查询的重要性对不同的语义向量进行加权平均。对于位置键，使用锚点选择方法，选择最具代表性的位置键来保留位置信息。最后，将压缩后的语义向量和位置键用于后续的注意力计算。

关键创新：LCA的关键创新在于它能够在MLA的潜在空间中直接进行上下文压缩，实现了计算复杂度和KV缓存的联合优化。与现有方法相比，LCA无需额外的参数，并且可以与不同的注意力机制（如GQA）兼容。此外，LCA将语义信息和位置信息分离处理，使得压缩过程更加高效。

关键设计：LCA的关键设计包括：1) 查询感知的池化方法，使用softmax函数对查询和语义向量之间的相似度进行归一化，得到权重，然后对语义向量进行加权平均。2) 锚点选择方法，使用聚类算法（如K-means）选择最具代表性的位置键作为锚点。3) 误差界限的理论证明，证明了LCA的压缩误差与文本长度无关，保证了LCA在长文本处理中的有效性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LCA在128K上下文长度下实现了高达2.5倍的预填充加速和90%的KV缓存减少，同时保持了与基线模型相当的性能。这表明LCA能够在显著降低计算成本和存储成本的同时，保持模型的准确性。LCA在多个长文本任务上都取得了具有竞争力的结果。

🎯 应用场景

LCA适用于需要处理长文本的各种应用场景，例如长文档摘要、长篇小说生成、代码理解、视频分析等。通过降低计算复杂度和KV缓存，LCA可以使大型语言模型更高效地处理这些任务，并降低部署成本。此外，LCA的架构无关性使其可以轻松集成到现有的模型中，具有广泛的应用前景。

📄 摘要（原文）

Large language models (LLMs) face significant challenges in processing long contexts due to the linear growth of the key-value (KV) cache and quadratic complexity of self-attention. Existing approaches address these bottlenecks separately: Multi-head Latent Attention (MLA) reduces the KV cache by projecting tokens into a low-dimensional latent space, while sparse attention reduces computation. However, sparse methods cannot operate natively on MLA's compressed latent structure, missing opportunities for joint optimization. In this paper, we propose Latent-Condensed Attention (LCA), which directly condenses context within MLA's latent space, where the representation is disentangled into semantic latent vectors and positional keys. LCA separately aggregates semantic vectors via query-aware pooling and preserves positional keys via anchor selection. This approach jointly reduces both computational cost and KV cache without adding parameters. Beyond MLA, LCA's design is architecture-agnostic and readily extends to other attention mechanisms such as GQA. Theoretically, we prove a length-independent error bound. Experiments show LCA achieves up to 2.5$\times$ prefilling speedup and 90% KV cache reduction at 128K context while maintaining competitive performance.

Latent-Condensed Transformer for Efficient Long Context Modeling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理