d$^2$Cache: Accelerating Diffusion-Based LLMs via Dual Adaptive Caching
作者: Yuchu Jiang, Yue Cai, Xiangzhong Luo, Jiale Fu, Jiarui Wang, Chonghan Liu, Xu Yang
分类: cs.CL
发布日期: 2025-09-27
🔗 代码/项目: GITHUB
💡 一句话要点
提出d$^2$Cache,通过双重自适应缓存加速基于扩散的LLM推理。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 大型语言模型 KV缓存 推理加速 自适应缓存 自然语言生成 双向注意力 解码优化
📋 核心要点
- dLLMs推理效率低是由于其双向注意力机制无法有效利用标准KV缓存。
- d$^2$Cache通过双重自适应缓存策略,选择性更新和重用KV状态,加速推理。
- 实验表明,d$^2$Cache在加速推理的同时,还能提升生成质量。
📝 摘要(中文)
基于扩散的大型语言模型(dLLMs)虽然性能优异,但推理效率较低。这是因为dLLMs依赖于双向注意力机制,无法像自回归模型(ARMs)那样直接受益于标准的键值(KV)缓存。为了解决这个问题,我们提出了 extit{双重自适应缓存}(d$^2$Cache),这是一个无需训练的近似KV缓存框架,用于加速dLLM推理。d$^2$Cache采用两阶段细粒度选择策略,以识别token并在每个解码步骤自适应地更新其KV状态,同时缓存剩余token的KV状态以供重用。此外,d$^2$Cache自然地提供了一种更可靠的解码替代方案,可以实现准左到右生成,并减轻序列末尾token的过早过度自信。在两个具有代表性的dLLM(即LLaDA和Dream)上的大量实验结果表明,d$^2$Cache不仅实现了显著的推理加速,而且在生成质量方面也取得了持续的改进。
🔬 方法详解
问题定义:基于扩散的LLM(dLLM)推理速度慢,主要原因是其双向注意力机制与自回归模型(ARM)的单向注意力不同,无法直接应用标准的KV缓存技术。现有方法缺乏有效的KV状态管理机制,导致推理效率低下。
核心思路:d$^2$Cache的核心思路是通过一种双重自适应的缓存机制,选择性地更新和重用KV状态。它旨在识别对生成过程影响较大的token,并自适应地更新它们的KV状态,同时缓存其他token的KV状态以供后续步骤重用,从而减少计算量,加速推理。
技术框架:d$^2$Cache框架包含两个主要阶段:token选择和KV状态更新。在token选择阶段,框架会根据一定的策略(例如,注意力权重)选择一部分token。在KV状态更新阶段,只更新被选中的token的KV状态,而其余token的KV状态则从缓存中直接获取。整个过程在每个解码步骤中迭代进行。
关键创新:d$^2$Cache的关键创新在于其双重自适应的缓存策略。首先,它采用细粒度的token选择机制,能够更精确地识别需要更新KV状态的token。其次,它能够自适应地调整缓存策略,以适应不同的生成任务和模型。这种自适应性使得d$^2$Cache能够在不同的场景下都取得良好的性能。
关键设计:d$^2$Cache的关键设计包括:(1) 两阶段细粒度选择策略,用于识别重要的token;(2) 自适应更新机制,根据token的重要性动态调整KV状态;(3) 准左到右生成模式,缓解序列末尾token的过度自信问题。具体的参数设置和损失函数等细节在论文中进行了详细描述,但摘要中未明确提及。
🖼️ 关键图片
📊 实验亮点
实验结果表明,d$^2$Cache在LLaDA和Dream等dLLM上实现了显著的推理加速,同时还提升了生成质量。具体的加速比例和质量提升幅度在论文中进行了详细的量化分析,但摘要中未提供具体数值。代码已开源。
🎯 应用场景
d$^2$Cache可广泛应用于各种基于扩散模型的自然语言生成任务,例如文本生成、机器翻译、对话系统等。通过加速推理过程,可以降低dLLM的部署成本,使其更易于在资源受限的环境中使用。此外,该方法还有助于提升用户体验,缩短响应时间。
📄 摘要(原文)
Diffusion-based large language models (dLLMs), despite their promising performance, still suffer from inferior inference efficiency. This is because dLLMs rely on bidirectional attention and cannot directly benefit from the standard key-value (KV) cache as autoregressive models (ARMs) do. To tackle this issue, we introduce \textit{Dual aDaptive Cache} (d$^2$Cache), which is a training-free approximate KV cache framework for accelerating dLLM inference. d$^2$Cache features a two-stage fine-grained selection strategy to identify tokens and adaptively update their KV states at each decoding step, while caching the KV states of the remaining tokens for reuse. Furthermore, d$^2$Cache naturally offers a more reliable decoding alternative, which can enable quasi left-to-right generation and mitigate premature overconfidence in tokens at the end of the sequence. Extensive experimental results on two representative dLLMs (\ie, LLaDA and Dream) demonstrate that d$^2$Cache not only achieves substantial inference speedups, but also yields consistent improvements in generation quality. The code is available at https://github.com/Kamichanw/d2Cache.