ENSI: Efficient Non-Interactive Secure Inference for Large Language Models
作者: Zhiyu He, Maojiang Wang, Xinwen Gao, Yuchuan Luo, Lin Liu, Shaojing Fu
分类: cs.CR, cs.AI
发布日期: 2025-09-11
💡 一句话要点
ENSI:面向大语言模型的高效非交互安全推理框架
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 安全推理 同态加密 大语言模型 BitNet 隐私保护 CKKS Sigmoid注意力
📋 核心要点
- 现有安全推理方法在处理大语言模型时,由于密码协议的复杂性以及LLM的庞大规模和复杂架构,面临着实际应用上的巨大挑战。
- ENSI通过协同设计密码协议和LLM架构,优化编码策略,并采用BitNet变体,显著降低加密计算的复杂度,提升推理效率。
- 实验表明,ENSI在矩阵乘法和softmax推理上实现了显著的加速,同时大幅降低了自举操作的开销,提升了整体性能。
📝 摘要(中文)
本文提出ENSI,一种新颖的非交互式大语言模型安全推理框架。该框架基于密码协议与LLM架构的协同设计原则。ENSI采用优化的编码策略,将CKKS方案与轻量级LLM变体BitNet无缝集成,显著降低了加密矩阵乘法的计算复杂度。针对同态加密(HE)下softmax计算量过大的问题,ENSI率先将sigmoid注意力机制与HE集成,作为一种无缝且无需重新训练的替代方案。此外,通过将自举操作嵌入到RMSNorm过程中,ENSI能够高效地刷新密文,同时显著降低了代价高昂的自举调用的频率。实验结果表明,与最先进的方法相比,ENSI在CPU上的矩阵乘法速度提高了约8倍,softmax推理速度提高了2.6倍,自举比例降低到仅1%。
🔬 方法详解
问题定义:现有安全推理方法在应用于大语言模型时,面临着计算复杂度过高的问题。传统的同态加密方案与LLM的结合,由于LLM参数量巨大以及复杂的计算过程(如softmax),导致推理速度极慢,难以实际应用。特别是softmax操作,在同态加密下计算代价非常高昂,成为性能瓶颈。
核心思路:ENSI的核心思路是通过协同设计密码协议和LLM架构,从算法层面降低计算复杂度。具体来说,ENSI采用轻量级的BitNet架构,并优化了编码策略,使其更适合同态加密计算。同时,使用sigmoid注意力机制替代softmax,并巧妙地将自举操作嵌入到RMSNorm中,进一步提升效率。
技术框架:ENSI框架主要包含以下几个关键模块:1) 优化的CKKS编码策略,用于高效地将数据编码为密文;2) 基于BitNet的轻量级LLM架构,降低了计算复杂度;3) Sigmoid注意力机制,替代了传统的softmax,减少了同态加密下的计算开销;4) 集成自举操作的RMSNorm层,用于刷新密文并降低自举频率。整体流程为:用户数据经过编码后输入到加密的BitNet模型中,模型进行推理,最后输出加密的结果。
关键创新:ENSI的关键创新在于:1) 提出了针对同态加密优化的LLM架构,即BitNet变体;2) 创新性地将sigmoid注意力机制引入到同态加密的LLM推理中,替代了计算代价高昂的softmax;3) 将自举操作与RMSNorm层集成,显著降低了自举的频率和开销。这些创新使得ENSI能够在保证安全性的前提下,大幅提升LLM的推理速度。
关键设计:ENSI的关键设计包括:1) 针对CKKS方案优化的编码策略,例如选择合适的缩放因子和精度;2) BitNet架构的具体参数设置,例如网络层数、隐藏层维度等;3) Sigmoid注意力机制的具体实现方式,例如温度参数的选择;4) RMSNorm层中自举操作的嵌入方式,例如自举的触发条件和参数设置。这些细节的设计直接影响着ENSI的性能和安全性。
🖼️ 关键图片
📊 实验亮点
ENSI在实验中表现出色,与最先进的方法相比,在CPU上的矩阵乘法速度提高了约8倍,softmax推理速度提高了2.6倍。更重要的是,自举操作的比例降低到仅1%,这表明ENSI能够显著降低同态加密的计算开销,使得LLM的安全推理成为可能。这些实验结果充分验证了ENSI的有效性和优越性。
🎯 应用场景
ENSI在保护用户隐私的大语言模型应用中具有广泛的应用前景。例如,在医疗诊断、金融风控等敏感数据处理场景中,可以使用ENSI对用户数据进行加密推理,从而在不泄露用户隐私的前提下,提供智能化的服务。ENSI的出现,为安全多方计算和隐私保护机器学习领域带来了新的突破,有望推动LLM在更多隐私敏感场景中的应用。
📄 摘要(原文)
Secure inference enables privacy-preserving machine learning by leveraging cryptographic protocols that support computations on sensitive user data without exposing it. However, integrating cryptographic protocols with large language models (LLMs) presents significant challenges, as the inherent complexity of these protocols, together with LLMs' massive parameter scale and sophisticated architectures, severely limits practical usability. In this work, we propose ENSI, a novel non-interactive secure inference framework for LLMs, based on the principle of co-designing the cryptographic protocols and LLM architecture. ENSI employs an optimized encoding strategy that seamlessly integrates CKKS scheme with a lightweight LLM variant, BitNet, significantly reducing the computational complexity of encrypted matrix multiplications. In response to the prohibitive computational demands of softmax under homomorphic encryption (HE), we pioneer the integration of the sigmoid attention mechanism with HE as a seamless, retraining-free alternative. Furthermore, by embedding the Bootstrapping operation within the RMSNorm process, we efficiently refresh ciphertexts while markedly decreasing the frequency of costly bootstrapping invocations. Experimental evaluations demonstrate that ENSI achieves approximately an 8x acceleration in matrix multiplications and a 2.6x speedup in softmax inference on CPU compared to state-of-the-art method, with the proportion of bootstrapping is reduced to just 1%.