DASH-KV: Accelerating Long-Context LLM Inference via Asymmetric KV Cache Hashing

📄 arXiv: 2604.19351v1 📥 PDF

作者: Jinyu Guo, Zhihan Zhang, Yutong Li, Jiehui Xie, Md. Tamim Iqbal, Dongshen Han, Lik-Hang Lee, Sung-Ho Bae, Jie Zou, Yang Yang, Chaoning Zhang

分类: cs.CL

发布日期: 2026-04-21

备注: Accepted by ACL 2026 (Findings)

🔗 代码/项目: GITHUB


💡 一句话要点

DASH-KV:通过非对称KV缓存哈希加速长文本LLM推理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长文本推理 大型语言模型 KV缓存 近似最近邻搜索 哈希编码 注意力机制加速 非对称哈希 动态混合精度

📋 核心要点

  1. 长文本LLM推理面临注意力机制的二次复杂度瓶颈,现有KV缓存压缩方法在降低内存占用时牺牲了生成质量和计算效率。
  2. DASH-KV将注意力机制转化为近似最近邻搜索,利用非对称深度哈希差异化处理查询和键,并动态调整精度以平衡效率和准确性。
  3. 实验表明,DASH-KV在LongBench上显著优于现有方法,性能与全注意力相当,同时将推理复杂度降至线性级别。

📝 摘要(中文)

标准注意力机制的二次计算复杂度是长文本推理中大型语言模型(LLM)的一个根本瓶颈。现有的KV缓存压缩方法虽然缓解了内存压力,但通常会牺牲生成质量,并且未能解决浮点运算的高开销问题。本文提出了一种创新的加速框架DASH-KV,它通过非对称深度哈希将注意力机制重新定义为近似最近邻搜索。在该范式下,我们设计了一种非对称编码架构,对查询和键进行差异化映射,以考虑它们在精度和重用特性上的区别。为了平衡效率和准确性,我们进一步引入了一种动态混合精度机制,自适应地保留关键token的全精度计算。在LongBench上的大量实验表明,DASH-KV显著优于最先进的基线方法,同时匹配了全注意力的性能,并将推理复杂度从O(N^2)降低到线性O(N)。代码可在https://github.com/Zhihan-Zh/DASH-KV获取。

🔬 方法详解

问题定义:长文本大型语言模型(LLM)推理中,标准注意力机制的计算复杂度为O(N^2),成为性能瓶颈。现有的KV缓存压缩方法试图缓解内存压力,但往往以牺牲生成质量或引入额外的计算开销为代价,无法有效解决浮点运算带来的高延迟问题。

核心思路:DASH-KV的核心思路是将注意力机制重新建模为近似最近邻搜索问题。通过将queries和keys映射到哈希空间,可以利用高效的哈希查找来近似计算注意力权重,从而将复杂度从O(N^2)降低到O(N)。关键在于如何设计合适的哈希函数,既能保证搜索的准确性,又能保持计算效率。

技术框架:DASH-KV框架主要包含以下几个阶段:1) 非对称编码:使用不同的深度哈希函数分别编码queries和keys,以适应它们在精度和重用特性上的差异。2) 近似最近邻搜索:在哈希空间中,使用queries的哈希码搜索最接近的keys的哈希码。3) 动态混合精度:根据token的重要性,动态地选择使用全精度或低精度计算注意力权重。4) 加权求和:使用近似的注意力权重对values进行加权求和,得到最终的输出。

关键创新:DASH-KV的关键创新在于以下几点:1) 非对称哈希编码:针对queries和keys的不同特性,设计了不同的哈希函数,提高了哈希搜索的准确性。2) 动态混合精度机制:自适应地保留关键token的全精度计算,在保证精度的同时,降低了整体的计算开销。3) 将注意力机制转化为近似最近邻搜索:从根本上改变了注意力计算的范式,实现了线性复杂度的推理。

关键设计:DASH-KV的关键设计包括:1) 非对称编码架构:queries和keys使用不同的深度神经网络进行哈希编码,网络结构和参数设置有所不同。2) 哈希码长度:哈希码的长度决定了搜索的精度和存储开销,需要根据具体的应用场景进行调整。3) 动态精度选择策略:根据token的注意力权重或其它指标,动态地选择使用全精度或低精度计算。4) 损失函数:使用对比损失或三元组损失等方法,训练哈希函数,使其能够将相似的queries和keys映射到相近的哈希码。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DASH-KV在LongBench基准测试中表现出色,显著优于现有KV缓存压缩方法,并在性能上与全注意力机制相匹配。更重要的是,DASH-KV成功地将推理复杂度从O(N^2)降低到线性O(N),为长文本LLM推理带来了显著的加速效果。具体的性能数据和对比结果可以在论文的实验部分找到。

🎯 应用场景

DASH-KV具有广泛的应用前景,尤其适用于需要处理长文本序列的场景,如长文档摘要、机器翻译、对话生成、代码生成等。通过降低计算复杂度和内存占用,DASH-KV可以显著提高LLM在这些任务上的推理速度和效率,使其能够部署在资源受限的设备上,并支持更大规模的文本处理。未来,DASH-KV有望成为长文本LLM推理的重要加速技术。

📄 摘要(原文)

The quadratic computational complexity of the standard attention mechanism constitutes a fundamental bottleneck for large language models in long-context inference. While existing KV cache compression methods alleviate memory pressure, they often sacrifice generation quality and fail to address the high overhead of floating-point arithmetic. This paper introduces DASH-KV, an innovative acceleration framework that reformulates attention as approximate nearest-neighbor search via asymmetric deep hashing. Under this paradigm, we design an asymmetric encoding architecture that differentially maps queries and keys to account for their distinctions in precision and reuse characteristics. To balance efficiency and accuracy, we further introduce a dynamic mixed-precision mechanism that adaptively retains full-precision computation for critical tokens. Extensive experiments on LongBench demonstrate that DASH-KV significantly outperforms state-of-the-art baseline methods while matching the performance of full attention, all while reducing inference complexity from O(N^2) to linear O(N). The code is available at https://github.com/Zhihan-Zh/DASH-KV