YOCO++: Enhancing YOCO with KV Residual Connections for Efficient LLM Inference
作者: You Wu, Ziheng Chen, Yizhen Zhang, Haoyi Wu, Chengting Yu, Yuchi Xu, Wenbo Su, Bo Zheng, Kewei Tu
分类: cs.CL
发布日期: 2026-04-15
💡 一句话要点
YOCO++:利用KV残差连接增强YOCO,实现高效LLM推理
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 LLM推理 KV缓存压缩 跨层共享 残差连接
📋 核心要点
- 现有跨层KV压缩方法在降低LLM推理时KV缓存内存消耗的同时,往往会带来显著的性能下降。
- YOCO++通过引入加权残差连接,将下半层KV与底层KV连接,从而在不牺牲效率的前提下提升模型容量。
- 实验结果表明,在50% KV缓存压缩率下,YOCO++优于YOCO和标准Transformer,达到当前最佳性能。
📝 摘要(中文)
跨层键值(KV)压缩已被证明在大语言模型(LLM)的高效推理中是有效的。虽然这些方法降低了KV缓存的内存消耗,但通常会引入不可忽略的性能下降。本文旨在增强YOCO的性能,YOCO是一种跨层KV压缩方法,它将中间层的KV与上半层共享。我们提出了YOCO++,一种增强的YOCO,它在每个下半层的KV和底层之间结合了加权残差连接。与YOCO相比,YOCO++在保持相同训练和推理效率的同时,增加了模型容量。我们的实验表明,在50% KV缓存压缩率下,YOCO++在跨层KV压缩方法中实现了最先进的性能,优于标准Transformer。
🔬 方法详解
问题定义:论文旨在解决大语言模型(LLM)推理过程中,跨层KV压缩方法在降低KV缓存内存消耗的同时,带来的性能下降问题。现有的跨层KV压缩方法,如YOCO,虽然减少了内存占用,但由于信息损失,模型性能受到影响。
核心思路:YOCO++的核心思路是通过引入KV残差连接,在下半层KV和底层KV之间建立联系,从而在压缩KV缓存的同时,保留更多的原始信息,提升模型容量和性能。这种残差连接允许模型在压缩表示的基础上,恢复部分原始信息,从而减轻信息损失带来的负面影响。
技术框架:YOCO++基于YOCO框架,主要改进在于引入了KV残差连接。整体架构与YOCO类似,仍然采用跨层KV共享的策略,将中间层的KV与上半层共享。关键区别在于,在每个下半层,增加一个加权残差连接,将该层的KV与底层KV进行融合。
关键创新:YOCO++的关键创新在于引入了加权残差连接,这是与现有跨层KV压缩方法(如YOCO)的本质区别。通过这种残差连接,模型能够更好地利用底层KV的信息,从而在压缩KV缓存的同时,保持较高的模型性能。
关键设计:YOCO++的关键设计在于残差连接的权重。论文中使用了可学习的权重,允许模型根据不同层的特性,自适应地调整残差连接的强度。具体的实现方式未知,但可以推测是为每个下半层学习一个或一组权重,用于控制该层KV与底层KV融合的比例。此外,损失函数和训练策略与YOCO保持一致,以确保训练的稳定性和效率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在50% KV缓存压缩率下,YOCO++在跨层KV压缩方法中实现了最先进的性能,显著优于YOCO和标准Transformer。具体性能提升数据未知,但摘要中明确指出YOCO++优于标准Transformer,表明其在压缩KV缓存的同时,能够有效保持甚至提升模型性能。
🎯 应用场景
YOCO++可应用于各种需要高效LLM推理的场景,例如移动设备上的本地LLM部署、资源受限的边缘计算环境等。通过降低KV缓存的内存需求,YOCO++使得在这些场景下部署更大规模的LLM成为可能,从而提升用户体验和应用性能。此外,该方法还可以应用于云端LLM服务,降低推理成本,提高服务效率。
📄 摘要(原文)
Cross-layer key-value (KV) compression has been found to be effective in efficient inference of large language models (LLMs). Although they reduce the memory consumption of the KV cache, such methods usually introduce non-negligible performance degradation. In this work, we aim to enhance the performance of YOCO, a cross-layer KV compression method that shares the KVs of the middle layer with the top-half layers. We propose YOCO++, an enhanced YOCO that incorporates a weighted residual connection between the KVs of each bottom-half layer and the bottom layer. Compared to YOCO, YOCO++ increases model capacity while maintaining the same training and inference efficiency. Our experiments show that YOCO++ achieves state-of-the-art performance among the cross-layer KV compression methods at a 50% KV cache compression rate, outperforming the standard Transformer.