Power-Softmax: Towards Secure LLM Inference over Encrypted Data

作者: Itamar Zimerman, Allon Adir, Ehud Aharoni, Matan Avitan, Moran Baruch, Nir Drucker, Jenny Lerner, Ramy Masalha, Reut Meiri, Omri Soceanu

分类: cs.LG, cs.CR

发布日期: 2024-10-12

💡 一句话要点

提出Power-Softmax，实现加密数据上安全LLM推理，模型参数超十亿

🎯 匹配领域: 支柱五：交互与反应 (Interaction & Reaction)

关键词: 同态加密 安全推理 大语言模型 Power-Softmax 自注意力机制 隐私保护 多项式近似

📋 核心要点

现有同态加密LLM方法依赖多项式形式，但Transformer中的Softmax等非多项式组件难以高效近似。
提出Power-Softmax，一种HE友好的自注意力变体，易于多项式近似，并保持训练稳定性。
构建了首个32层、超10亿参数的多项式LLM，性能与同等规模的标准Transformer相当。

📝 摘要（中文）

本文提出了一种新的同态加密（HE）友好的自注意力机制变体，该变体具有稳定的训练形式，并且易于用多项式近似，从而实现安全推理。Transformer包含非多项式组件，如Softmax和层归一化，这给构建多项式形式的LLM带来了挑战。先前的方法要么直接用大度多项式近似预训练模型（效率较低），要么在训练前用更容易近似的基元替换非多项式组件（可能引入可扩展性问题）。本文提出的方法构建了首个具有32层和超过10亿参数的多项式LLM，超过了先前模型的规模十倍以上。实验表明，生成的模型具有与相同大小的标准Transformer相当的推理和上下文学习（ICL）能力，代表了该领域的突破。最后，本文提供了加密数据上每次计算的详细延迟分解，为进一步优化铺平了道路，并探讨了依赖于HE友好变体的Transformer与标准Transformer之间的归纳偏差差异。

🔬 方法详解

问题定义：论文旨在解决在加密数据上安全地进行大规模语言模型（LLM）推理的问题。现有的方法要么直接用高阶多项式近似预训练模型，导致效率低下；要么在训练前替换非多项式组件，可能影响模型的可扩展性和性能。因此，需要一种既能保持模型性能，又能方便进行同态加密推理的方法。

核心思路：论文的核心思路是设计一种新的、同态加密友好的自注意力机制，即Power-Softmax。这种机制在训练时具有稳定性，并且可以很容易地用低阶多项式进行近似，从而在加密数据上实现高效的推理。通过替换标准Softmax，使得整个模型更容易转换为多项式形式，从而兼容同态加密。

技术框架：整体框架与标准的Transformer类似，但关键在于将标准的Softmax替换为Power-Softmax。模型包括嵌入层、多层Transformer块（每个块包含自注意力层和前馈网络）以及输出层。自注意力层是核心，其中Power-Softmax取代了传统的Softmax。整个模型在明文数据上进行训练，然后将其转换为多项式形式，以便在加密数据上进行推理。

关键创新：最重要的技术创新点在于Power-Softmax的设计。与直接近似Softmax不同，Power-Softmax本身就是一个设计好的、更易于多项式近似的函数。这避免了高阶多项式近似带来的计算复杂性，并提高了同态加密推理的效率。此外，该方法构建了当时最大的多项式LLM，证明了其可扩展性。

关键设计：Power-Softmax的具体形式未知，但可以推断其设计目标是：1）易于用低阶多项式近似；2）在训练过程中保持数值稳定性；3）尽可能接近标准Softmax的功能，以减少对模型性能的影响。论文中可能包含关于Power-Softmax的具体数学表达式、近似多项式的阶数选择以及训练过程中的超参数设置等细节。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用Power-Softmax构建的32层、超过10亿参数的LLM，在推理和上下文学习能力上与同等规模的标准Transformer相当。这是首个如此大规模的多项式LLM，代表了在加密数据上进行LLM推理的重大突破。论文还提供了加密数据上计算的详细延迟分解，为后续优化提供了依据。

🎯 应用场景

该研究成果可应用于需要保护用户隐私的场景，例如金融、医疗等领域。用户可以在不泄露数据内容的前提下，利用LLM进行智能分析和决策。未来，该技术有望推动隐私计算的发展，促进安全多方计算和联邦学习等技术的应用。

📄 摘要（原文）

Modern cryptographic methods for implementing privacy-preserving LLMs such as Homomorphic Encryption (HE) require the LLMs to have a polynomial form. Forming such a representation is challenging because Transformers include non-polynomial components, such as Softmax and layer normalization. Previous approaches have either directly approximated pre-trained models with large-degree polynomials, which are less efficient over HE, or replaced non-polynomial components with easier-to-approximate primitives before training, e.g., Softmax with pointwise attention. The latter approach might introduce scalability challenges. We present a new HE-friendly variant of self-attention that offers a stable form for training and is easy to approximate with polynomials for secure inference. Our work introduces the first polynomial LLMs with 32 layers and over a billion parameters, exceeding the size of previous models by more than tenfold. The resulting models demonstrate reasoning and in-context learning (ICL) capabilities comparable to standard transformers of the same size, representing a breakthrough in the field. Finally, we provide a detailed latency breakdown for each computation over encrypted data, paving the way for further optimization, and explore the differences in inductive bias between transformers relying on our HE-friendly variant and standard transformers. Our code is attached as a supplement.

Power-Softmax: Towards Secure LLM Inference over Encrypted Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理