Towards Confidential and Efficient LLM Inference with Dual Privacy Protection

📄 arXiv: 2509.09091v1 📥 PDF

作者: Honglan Yu, Yibin Wang, Feifei Dai, Dong Liu, Haihui Fan, Xiaoyan Gu

分类: cs.CR, cs.AI

发布日期: 2025-09-11

备注: Accepted by DASFAA2025


💡 一句话要点

CMIF:面向LLM推理的双重隐私保护框架,兼顾效率与安全性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 隐私保护 可信执行环境 差分隐私 安全推理

📋 核心要点

  1. 现有基于TEE的LLM推理方案存在高延迟问题,而卸载部分计算到GPU又引入了巨大的通信开销。
  2. CMIF框架的核心思想是将LLM的嵌入层部署在客户端TEE中,后续层部署在GPU服务器上,从而平衡隐私保护和推理效率。
  3. CMIF还优化了Report-Noisy-Max机制,在保护敏感输入的同时,尽可能减小对模型性能的影响,实验表明有效。

📝 摘要(中文)

本文提出了一种名为CMIF的保密且高效的模型推理框架,旨在解决基于CPU的可信执行环境(TEE)和差分隐私(DP)在私有推理中面临的挑战。TEE虽然能保护隐私,但推理延迟高,而将线性模型组件卸载到GPU的方案又会因大语言模型(LLM)的密集非线性层导致TEE和GPU之间产生显著的通信开销。基于DP的方法虽然能通过添加随机噪声来保护数据隐私,但会牺牲LLM的性能和语义理解能力。CMIF通过在客户端TEE中安全地部署嵌入层,并在GPU服务器上部署后续层来克服上述缺点。同时,CMIF优化了Report-Noisy-Max机制,以保护敏感输入,且模型性能仅略有下降。对Llama系列模型的大量实验表明,CMIF在保护用户数据隐私的同时,减少了TEE中的额外推理开销。

🔬 方法详解

问题定义:现有基于TEE的LLM私有推理方案,由于TEE内部计算开销大,导致推理延迟过高。将部分计算(如线性层)卸载到GPU虽然可以加速推理,但LLM中大量的非线性层导致TEE和GPU之间频繁的数据传输,引入了显著的通信开销,成为新的性能瓶颈。此外,基于差分隐私的方案虽然能保护隐私,但会严重影响LLM的性能和语义理解能力。

核心思路:CMIF的核心思路是合理划分LLM的计算任务,将对隐私要求最高的嵌入层部署在客户端的TEE中,利用TEE的安全性保护用户输入。而将计算量大的后续层部署在GPU服务器上,利用GPU的并行计算能力加速推理。同时,针对敏感输入,优化Report-Noisy-Max机制,在保证隐私的前提下,尽可能减少噪声对模型性能的影响。

技术框架:CMIF框架主要包含以下几个模块:1) 客户端TEE:负责存储和执行LLM的嵌入层,接收用户输入,并对输入进行嵌入操作。2) GPU服务器:负责执行LLM的后续层,接收来自TEE的嵌入向量,进行推理计算,并将结果返回给客户端。3) Report-Noisy-Max机制:用于保护敏感输入,在嵌入向量中添加噪声,防止攻击者通过分析嵌入向量推断出用户的敏感信息。

关键创新:CMIF的关键创新在于:1) 提出了TEE和GPU混合部署的LLM推理框架,平衡了隐私保护和推理效率。2) 针对LLM的特点,优化了Report-Noisy-Max机制,在保证隐私的前提下,尽可能减少噪声对模型性能的影响。3) 通过将嵌入层部署在客户端TEE中,有效减少了TEE和GPU之间的数据传输量,降低了通信开销。

关键设计:CMIF的关键设计包括:1) 嵌入层的位置选择:将嵌入层部署在客户端TEE中,可以有效保护用户输入,防止敏感信息泄露。2) Report-Noisy-Max机制的优化:通过调整噪声的尺度和添加方式,可以在保证隐私的前提下,尽可能减少噪声对模型性能的影响。具体的噪声添加策略和参数设置需要根据具体的LLM和应用场景进行调整。3) TEE和GPU之间的数据传输优化:采用高效的数据传输协议和压缩算法,减少数据传输量,降低通信开销。

📊 实验亮点

实验结果表明,CMIF框架在Llama系列模型上能够有效降低TEE中的额外推理开销,同时保护用户数据隐私。具体而言,与完全在TEE中进行推理相比,CMIF能够显著降低推理延迟,同时模型性能仅有轻微下降。在保证一定隐私预算下,CMIF的性能优于直接应用差分隐私的方案。

🎯 应用场景

CMIF框架可应用于各种需要保护用户隐私的LLM应用场景,例如:医疗诊断、金融风控、法律咨询等。通过CMIF,用户可以在享受LLM强大功能的同时,不必担心个人敏感信息泄露的风险。该研究有助于推动LLM在隐私敏感领域的应用,促进人工智能技术的可信发展。

📄 摘要(原文)

CPU-based trusted execution environments (TEEs) and differential privacy (DP) have gained wide applications for private inference. Due to high inference latency in TEEs, researchers use partition-based approaches that offload linear model components to GPUs. However, dense nonlinear layers of large language models (LLMs) result in significant communication overhead between TEEs and GPUs. DP-based approaches apply random noise to protect data privacy, but this compromises LLM performance and semantic understanding. To overcome the above drawbacks, this paper proposes CMIF, a Confidential and efficient Model Inference Framework. CMIF confidentially deploys the embedding layer in the client-side TEE and subsequent layers on GPU servers. Meanwhile, it optimizes the Report-Noisy-Max mechanism to protect sensitive inputs with a slight decrease in model performance. Extensive experiments on Llama-series models demonstrate that CMIF reduces additional inference overhead in TEEs while preserving user data privacy.