Comet: Accelerating Private Inference for Large Language Model by Predicting Activation Sparsity
作者: Guang Yan, Yuhui Zhang, Zimu Guo, Lutan Zhao, Xiaojun Chen, Chen Wang, Wenhao Wang, Dan Meng, Rui Hou
分类: cs.CR, cs.AI
发布日期: 2025-05-12
备注: Accepted to SP 2025
DOI: 10.1109/SP61157.2025.00182
💡 一句话要点
Comet:通过预测激活稀疏性加速大语言模型私有推理
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 私有推理 大语言模型 安全多方计算 激活稀疏性 缓存优化
📋 核心要点
- 现有基于MPC的LLM私有推理方案面临高昂的通信开销,严重影响性能。
- Comet通过预测激活稀疏性,避免零值计算,并设计低开销缓存重填策略,优化私有推理。
- 实验表明,Comet在加速和减少通信方面显著优于现有私有推理系统,最高可达2.63倍加速。
📝 摘要(中文)
随着云平台上托管的大语言模型(LLM)在推理服务中日益普及,敏感信息泄露的隐私问题日益突出。安全多方计算(MPC)是保护LLM推理隐私的一种有前景的解决方案。然而,MPC需要频繁的服务器间通信,导致较高的性能开销。受LLM普遍存在的激活稀疏性(即大多数神经元在非线性激活函数后未被激活)的启发,我们提出了一种高效的私有推理系统Comet。该系统采用精确且快速的预测器来预测激活函数输出的稀疏性分布。此外,我们引入了一种新的私有推理协议,通过利用预测的稀疏分布的空间局部性,高效且安全地避免涉及零值的计算。虽然这种避免计算的方法会影响KV缓存条目的时空连续性,但我们通过一种低通信开销的缓存重填策略来解决这一挑战,该策略合并了未命中请求并结合了预取机制。最后,我们在四个常见的LLM上评估了Comet,并将其与六个最先进的私有推理系统进行了比较。Comet实现了1.87倍-2.63倍的加速和1.94倍-2.64倍的通信量减少。
🔬 方法详解
问题定义:现有基于安全多方计算(MPC)的大语言模型私有推理方案,由于需要频繁的服务器间通信,导致性能开销过高,严重限制了其在实际场景中的应用。现有的方法没有充分利用LLM中普遍存在的激活稀疏性,即大量神经元输出为零,导致了不必要的计算和通信开销。
核心思路:Comet的核心思路是利用LLM的激活稀疏性,通过预测激活函数输出的稀疏分布,避免对零值进行计算,从而减少MPC中的通信开销。此外,针对稀疏计算带来的KV缓存不连续问题,设计了低开销的缓存重填策略,保证推理的正确性和效率。
技术框架:Comet系统主要包含三个模块:1) 激活稀疏性预测器:用于预测激活函数输出的稀疏分布;2) 私有推理协议:基于预测的稀疏性,安全地避免零值计算;3) 缓存重填策略:解决稀疏计算导致的KV缓存不连续问题,包括合并未命中请求和预取机制。整体流程是,首先使用预测器预测激活稀疏性,然后利用改进的MPC协议进行私有推理,最后使用缓存重填策略维护KV缓存。
关键创新:Comet的关键创新在于:1) 提出了基于激活稀疏性预测的私有推理方法,显著减少了计算和通信开销;2) 设计了一种新的私有推理协议,能够安全有效地避免零值计算;3) 提出了一种低通信开销的缓存重填策略,解决了稀疏计算带来的KV缓存不连续问题。与现有方法相比,Comet能够更有效地利用LLM的特性,实现更高的推理效率。
关键设计:激活稀疏性预测器使用了轻量级的神经网络结构,以保证预测速度。私有推理协议基于加法秘密共享,并利用预测的稀疏性掩码来避免零值计算。缓存重填策略采用了合并未命中请求和预取机制,以减少通信开销。具体的参数设置和网络结构细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
Comet在四个常见的大语言模型上进行了评估,并与六个最先进的私有推理系统进行了比较。实验结果表明,Comet实现了1.87倍-2.63倍的加速和1.94倍-2.64倍的通信量减少。这些结果表明,Comet能够显著提升私有推理的效率,使其更适用于实际应用。
🎯 应用场景
Comet可应用于各种需要保护用户隐私的大语言模型推理服务,例如:医疗诊断、金融风控、法律咨询等。通过Comet,用户可以在不泄露敏感数据的前提下,安全地使用云端LLM服务,从而促进LLM在隐私敏感领域的应用和发展。未来,Comet的思路可以推广到其他具有稀疏性的深度学习模型中。
📄 摘要(原文)
With the growing use of large language models (LLMs) hosted on cloud platforms to offer inference services, privacy concerns about the potential leakage of sensitive information are escalating. Secure multi-party computation (MPC) is a promising solution to protect the privacy in LLM inference. However, MPC requires frequent inter-server communication, causing high performance overhead. Inspired by the prevalent activation sparsity of LLMs, where most neuron are not activated after non-linear activation functions, we propose an efficient private inference system, Comet. This system employs an accurate and fast predictor to predict the sparsity distribution of activation function output. Additionally, we introduce a new private inference protocol. It efficiently and securely avoids computations involving zero values by exploiting the spatial locality of the predicted sparse distribution. While this computation-avoidance approach impacts the spatiotemporal continuity of KV cache entries, we address this challenge with a low-communication overhead cache refilling strategy that merges miss requests and incorporates a prefetching mechanism. Finally, we evaluate Comet on four common LLMs and compare it with six state-of-the-art private inference systems. Comet achieves a 1.87x-2.63x speedup and a 1.94x-2.64x communication reduction.