Towards Confidential and Efficient LLM Inference with Dual Privacy Protection

作者: Honglan Yu, Yibin Wang, Feifei Dai, Dong Liu, Haihui Fan, Xiaoyan Gu

分类: cs.CR, cs.AI

发布日期: 2025-09-11

备注: Accepted by DASFAA2025

💡 一句话要点

CMIF：面向LLM推理的双重隐私保护框架，兼顾效率与安全性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 隐私保护 可信执行环境 差分隐私 安全推理

📋 核心要点

现有基于TEE的LLM推理方案存在高延迟问题，而卸载部分计算到GPU又引入了巨大的通信开销。
CMIF框架的核心思想是将LLM的嵌入层部署在客户端TEE中，后续层部署在GPU服务器上，从而平衡隐私保护和推理效率。
CMIF还优化了Report-Noisy-Max机制，在保护敏感输入的同时，尽可能减小对模型性能的影响，实验表明有效。

📝 摘要（中文）

本文提出了一种名为CMIF的保密且高效的模型推理框架，旨在解决基于CPU的可信执行环境（TEE）和差分隐私（DP）在私有推理中面临的挑战。TEE虽然能保护隐私，但推理延迟高，而将线性模型组件卸载到GPU的方案又会因大语言模型（LLM）的密集非线性层导致TEE和GPU之间产生显著的通信开销。基于DP的方法虽然能通过添加随机噪声来保护数据隐私，但会牺牲LLM的性能和语义理解能力。CMIF通过在客户端TEE中安全地部署嵌入层，并在GPU服务器上部署后续层来克服上述缺点。同时，CMIF优化了Report-Noisy-Max机制，以保护敏感输入，且模型性能仅略有下降。对Llama系列模型的大量实验表明，CMIF在保护用户数据隐私的同时，减少了TEE中的额外推理开销。

🔬 方法详解

问题定义：现有基于TEE的LLM私有推理方案，由于TEE内部计算开销大，导致推理延迟过高。将部分计算（如线性层）卸载到GPU虽然可以加速推理，但LLM中大量的非线性层导致TEE和GPU之间频繁的数据传输，引入了显著的通信开销，成为新的性能瓶颈。此外，基于差分隐私的方案虽然能保护隐私，但会严重影响LLM的性能和语义理解能力。

核心思路：CMIF的核心思路是合理划分LLM的计算任务，将对隐私要求最高的嵌入层部署在客户端的TEE中，利用TEE的安全性保护用户输入。而将计算量大的后续层部署在GPU服务器上，利用GPU的并行计算能力加速推理。同时，针对敏感输入，优化Report-Noisy-Max机制，在保证隐私的前提下，尽可能减少噪声对模型性能的影响。

技术框架：CMIF框架主要包含以下几个模块：1) 客户端TEE：负责存储和执行LLM的嵌入层，接收用户输入，并对输入进行嵌入操作。2) GPU服务器：负责执行LLM的后续层，接收来自TEE的嵌入向量，进行推理计算，并将结果返回给客户端。3) Report-Noisy-Max机制：用于保护敏感输入，在嵌入向量中添加噪声，防止攻击者通过分析嵌入向量推断出用户的敏感信息。

关键创新：CMIF的关键创新在于：1) 提出了TEE和GPU混合部署的LLM推理框架，平衡了隐私保护和推理效率。2) 针对LLM的特点，优化了Report-Noisy-Max机制，在保证隐私的前提下，尽可能减少噪声对模型性能的影响。3) 通过将嵌入层部署在客户端TEE中，有效减少了TEE和GPU之间的数据传输量，降低了通信开销。

关键设计：CMIF的关键设计包括：1) 嵌入层的位置选择：将嵌入层部署在客户端TEE中，可以有效保护用户输入，防止敏感信息泄露。2) Report-Noisy-Max机制的优化：通过调整噪声的尺度和添加方式，可以在保证隐私的前提下，尽可能减少噪声对模型性能的影响。具体的噪声添加策略和参数设置需要根据具体的LLM和应用场景进行调整。3) TEE和GPU之间的数据传输优化：采用高效的数据传输协议和压缩算法，减少数据传输量，降低通信开销。

📊 实验亮点

实验结果表明，CMIF框架在Llama系列模型上能够有效降低TEE中的额外推理开销，同时保护用户数据隐私。具体而言，与完全在TEE中进行推理相比，CMIF能够显著降低推理延迟，同时模型性能仅有轻微下降。在保证一定隐私预算下，CMIF的性能优于直接应用差分隐私的方案。

🎯 应用场景

CMIF框架可应用于各种需要保护用户隐私的LLM应用场景，例如：医疗诊断、金融风控、法律咨询等。通过CMIF，用户可以在享受LLM强大功能的同时，不必担心个人敏感信息泄露的风险。该研究有助于推动LLM在隐私敏感领域的应用，促进人工智能技术的可信发展。

📄 摘要（原文）

CPU-based trusted execution environments (TEEs) and differential privacy (DP) have gained wide applications for private inference. Due to high inference latency in TEEs, researchers use partition-based approaches that offload linear model components to GPUs. However, dense nonlinear layers of large language models (LLMs) result in significant communication overhead between TEEs and GPUs. DP-based approaches apply random noise to protect data privacy, but this compromises LLM performance and semantic understanding. To overcome the above drawbacks, this paper proposes CMIF, a Confidential and efficient Model Inference Framework. CMIF confidentially deploys the embedding layer in the client-side TEE and subsequent layers on GPU servers. Meanwhile, it optimizes the Report-Noisy-Max mechanism to protect sensitive inputs with a slight decrease in model performance. Extensive experiments on Llama-series models demonstrate that CMIF reduces additional inference overhead in TEEs while preserving user data privacy.

Towards Confidential and Efficient LLM Inference with Dual Privacy Protection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册