Fully Homomorphic Encryption on Llama 3 model for privacy preserving LLM inference

📄 arXiv: 2604.12168v1 📥 PDF

作者: Anes Abdennebi, Nadjia Kara, Laaziz Lahlou

分类: cs.CR, cs.AI

发布日期: 2026-04-14


💡 一句话要点

在Llama 3模型上实现全同态加密,保护LLM推理过程中的隐私

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 全同态加密 后量子密码学 LLM推理 隐私保护 LLAMA-3 concrete-ml 数据安全

📋 核心要点

  1. 现有LLM推理管道存在数据泄露风险,易受数据中毒、提示注入等攻击,传统加密算法面临量子计算的威胁。
  2. 该论文提出将基于后量子密码学的全同态加密(FHE)集成到LLAMA-3模型的推理管道中,以保护数据隐私。
  3. 实验结果表明,该方法在i9 CPU上实现了高达98%的文本生成准确率,延迟为237毫秒,达到每秒80个token。

📝 摘要(中文)

生成式人工智能(GenAI)在医疗、金融、交通和信息安全等数据驱动领域的应用显著提高了服务效率和降低了延迟。然而,这种协同作用引发了对大型语言模型(LLM)安全以及它们对公司和用户数据隐私的潜在影响的严重担忧。许多将LLM纳入其服务的技术公司面临着因不安全的LLM管道导致的数据暴露和秘密泄露的风险,使其容易受到数据中毒、提示注入和模型窃取等多种攻击。尽管实施了几种安全技术(输入/输出清理、去中心化学习、访问控制管理和加密)来降低这种风险,但量子计算攻击的迫在眉睫的风险仍然存在,预计这些攻击将打破现有的加密算法,从而检索密钥、加密的敏感数据和解密加密的模型。在这项广泛的工作中,我们将基于后量子密码学(PQC)的基于格的全同态加密(HE)主要功能集成到LLM的推理管道中,以保护其某些层免受数据隐私攻击。我们修改了LLAMA-3模型的transformer架构的推理管道,同时注入了concrete-ml库提供的主要同态加密操作。我们展示了高文本生成准确率(高达98%),在i9 CPU上具有合理的延迟(237毫秒),达到每秒80个token,这证明了我们工作在运行FHE保护的LLAMA-3推理模型时的可行性和有效性。进一步的实验和分析被讨论以证明模型的文本生成延迟和行为的合理性。

🔬 方法详解

问题定义:论文旨在解决LLM推理过程中数据隐私泄露的问题。现有方法,如输入/输出清理、访问控制等,无法有效抵抗量子计算攻击,使得加密的敏感数据和模型容易被破解。因此,需要一种能够在加密数据上直接进行计算,且能抵抗量子计算攻击的加密方案。

核心思路:论文的核心思路是将全同态加密(FHE)集成到LLM的推理管道中。FHE允许在加密数据上执行计算,而无需先解密数据,从而保护了数据的隐私。同时,选择基于后量子密码学(PQC)的FHE方案,以抵抗量子计算攻击。

技术框架:该论文修改了LLAMA-3模型的transformer架构的推理管道。具体来说,在推理管道的某些层中,注入了由concrete-ml库提供的同态加密操作。这意味着在这些层中,数据始终以加密形式存在,计算也在加密数据上进行。

关键创新:该论文的关键创新在于将后量子密码学(PQC)的全同态加密(FHE)技术应用于LLM的推理过程。这使得在保护数据隐私的同时,仍然可以进行LLM的推理计算,解决了传统加密方法在LLM应用中的局限性。

关键设计:论文使用了concrete-ml库提供的同态加密操作,并将其集成到LLAMA-3模型的transformer架构的推理管道中。具体的参数设置、损失函数和网络结构等技术细节在论文中进行了详细的描述和分析,以优化模型的性能和效率。具体实现细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在i9 CPU上,该方法实现了高达98%的文本生成准确率,延迟为237毫秒,达到每秒80个token。这些结果证明了在LLAMA-3模型上使用FHE进行安全推理的可行性和有效性。虽然存在一定的延迟,但考虑到隐私保护的价值,这是一个可以接受的折衷。

🎯 应用场景

该研究成果可应用于对数据隐私要求极高的领域,如医疗、金融等。例如,在医疗领域,可以在保护患者隐私的前提下,利用LLM进行疾病诊断和治疗方案推荐。在金融领域,可以安全地进行风险评估和欺诈检测。该技术还有助于推动LLM在更多安全敏感场景中的应用。

📄 摘要(原文)

The applications of Generative Artificial Intelligence (GenAI) and their intersections with data-driven fields, such as healthcare, finance, transportation, and information security, have led to significant improvements in service efficiency and low latency. However, this synergy raises serious concerns regarding the security of large language models (LLMs) and their potential impact on the privacy of companies and users' data. Many technology companies that incorporate LLMs in their services with a certain level of command and control bear a risk of data exposure and secret divulgence caused by insecure LLM pipelines, making them vulnerable to multiple attacks such as data poisoning, prompt injection, and model theft. Although several security techniques (input/output sanitization, decentralized learning, access control management, and encryption) were implemented to reduce this risk, there is still an imminent risk of quantum computing attacks, which are expected to break existing encryption algorithms, hence, retrieving secret keys, encrypted sensitive data, and decrypting encrypted models. In this extensive work, we integrate the Post-Quantum Cryptography (PQC) based Lattice-based Homomorphic Encryption (HE) main functions in the LLM's inference pipeline to secure some of its layers against data privacy attacks. We modify the inference pipeline of the transformer architecture for the LLAMA-3 model while injecting the main homomorphic encryption operations provided by the concrete-ml library. We demonstrate high text generation accuracies (up to 98%) with reasonable latencies (237 ms) on an i9 CPU, reaching up to 80 tokens per second, which proves the feasibility and validity of our work while running a FHE-secured LLAMA-3 inference model. Further experiments and analysis are discussed to justify models' text generation latencies and behaviours.