Cache-to-Cache: Direct Semantic Communication Between Large Language Models

📄 arXiv: 2510.03215v1 📥 PDF

作者: Tianyu Fu, Zihan Min, Hanling Zhang, Jichao Yan, Guohao Dai, Wanli Ouyang, Yu Wang

分类: cs.CL, cs.LG

发布日期: 2025-10-03

🔗 代码/项目: GITHUB


💡 一句话要点

提出Cache-to-Cache (C2C),实现大语言模型间基于KV-Cache的直接语义通信,提升性能和效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 语义通信 KV-Cache 多智能体系统 模型融合

📋 核心要点

  1. 现有LLM通信依赖文本,导致语义信息损失和生成延迟,限制了多LLM系统的效率。
  2. C2C通过神经网络直接在LLM的KV-Cache间传递语义信息,避免了文本生成过程。
  3. 实验表明,C2C在准确率上优于单模型和文本通信,并显著降低了延迟。

📝 摘要(中文)

多LLM系统利用不同大语言模型的互补优势,实现单个模型无法达到的性能和效率提升。现有设计中,LLM通过文本进行通信,迫使内部表示转换为输出token序列。此过程既损失了丰富的语义信息,又产生了逐token生成的延迟。受这些限制的驱动,我们提出问题:LLM能否超越文本进行通信?Oracle实验表明,丰富KV-Cache的语义可以提高响应质量,而无需增加缓存大小,这支持KV-Cache作为模型间通信的有效媒介。因此,我们提出Cache-to-Cache (C2C),一种用于LLM之间直接语义通信的新范例。C2C使用神经网络来投影和融合源模型的KV-cache与目标模型的KV-cache,以实现直接语义传输。一个可学习的门控机制选择从缓存通信中受益的目标层。与文本通信相比,C2C利用来自两个模型的深度、专业语义,同时避免了显式的中间文本生成。实验表明,C2C的平均准确率比单个模型高8.5-10.5%。它进一步优于文本通信范例约3.0-5.0%,同时平均加速2.0倍的延迟。我们的代码可在https://github.com/thu-nics/C2C获得。

🔬 方法详解

问题定义:现有的大语言模型(LLM)协同工作时,通常采用文本作为通信媒介。这种方式存在两个主要问题:一是将模型内部的丰富语义信息压缩成文本token序列,造成信息损失;二是文本生成过程是逐token进行的,导致通信延迟较高,影响整体效率。因此,需要一种更高效、更直接的LLM通信方式。

核心思路:论文的核心思路是利用LLM的KV-Cache作为语义信息的载体,直接在不同LLM之间传递语义信息,避免中间的文本生成过程。KV-Cache存储了模型在生成过程中的关键信息,包含更深层次的语义表示。通过直接操作KV-Cache,可以更高效地传递信息,并保留更多的语义细节。

技术框架:C2C的整体框架包括以下几个主要模块:1) 源模型(Source LLM):负责生成初始的KV-Cache。2) 投影网络(Projection Network):将源模型的KV-Cache投影到与目标模型兼容的语义空间。3) 融合模块(Fusion Module):将投影后的KV-Cache与目标模型的KV-Cache进行融合。4) 门控机制(Gating Mechanism):选择目标模型中受益于缓存通信的层。5) 目标模型(Target LLM):利用融合后的KV-Cache生成最终的输出。整个流程避免了显式的文本生成,实现了直接的语义传递。

关键创新:C2C最重要的创新点在于提出了基于KV-Cache的直接语义通信范式。与传统的文本通信相比,C2C直接操作模型的内部表示,避免了信息损失和生成延迟。此外,C2C还引入了可学习的门控机制,可以自适应地选择目标模型中需要进行缓存通信的层,进一步提高了通信效率和性能。

关键设计:投影网络通常采用多层感知机(MLP)结构,用于将源模型的KV-Cache映射到目标模型的语义空间。融合模块可以使用加权平均或者更复杂的注意力机制来融合两个模型的KV-Cache。门控机制通常使用sigmoid函数来生成一个0到1之间的权重,用于控制每一层接收到的缓存信息的比例。损失函数的设计需要考虑目标模型的生成质量,可以使用交叉熵损失或者其他相关的指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,C2C在多个任务上都取得了显著的性能提升。与单个模型相比,C2C的平均准确率提高了8.5-10.5%。与传统的文本通信方法相比,C2C的准确率提高了3.0-5.0%,同时延迟降低了约2.0倍。这些结果证明了C2C在多LLM协同工作中的有效性和优越性。

🎯 应用场景

C2C技术可应用于各种需要多LLM协同工作的场景,例如智能客服、多智能体协作、复杂问题求解等。通过更高效的语义通信,可以提升系统的整体性能和用户体验。未来,C2C还可以扩展到不同模态的模型之间,实现跨模态的知识迁移和融合。

📄 摘要(原文)

Multi-LLM systems harness the complementary strengths of diverse Large Language Models, achieving performance and efficiency gains unattainable by a single model. In existing designs, LLMs communicate through text, forcing internal representations to be transformed into output token sequences. This process both loses rich semantic information and incurs token-by-token generation latency. Motivated by these limitations, we ask: Can LLMs communicate beyond text? Oracle experiments show that enriching the KV-Cache semantics can improve response quality without increasing cache size, supporting KV-Cache as an effective medium for inter-model communication. Thus, we propose Cache-to-Cache (C2C), a new paradigm for direct semantic communication between LLMs. C2C uses a neural network to project and fuse the source model's KV-cache with that of the target model to enable direct semantic transfer. A learnable gating mechanism selects the target layers that benefit from cache communication. Compared with text communication, C2C utilizes the deep, specialized semantics from both models, while avoiding explicit intermediate text generation. Experiments show that C2C achieves 8.5-10.5% higher average accuracy than individual models. It further outperforms the text communication paradigm by approximately 3.0-5.0%, while delivering an average 2.0x speedup in latency. Our code is available at https://github.com/thu-nics/C2C.