Exploiting LLM Quantization
作者: Kazuki Egashira, Mark Vero, Robin Staab, Jingxuan He, Martin Vechev
分类: cs.LG, cs.AI, cs.CR
发布日期: 2024-05-28 (更新: 2024-11-04)
💡 一句话要点
揭示量化大语言模型的安全漏洞:全精度良性,量化后恶意
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 量化 安全漏洞 对抗攻击 投影梯度下降
📋 核心要点
- 现有LLM量化研究主要关注其对模型效用的影响,忽略了潜在的安全风险,特别是可能引入恶意行为。
- 该论文提出一种三阶段攻击框架,通过对抗性微调、量化约束计算和投影梯度下降,生成全精度良性但量化后恶意的LLM。
- 实验证明,该攻击在代码生成、内容注入和过度拒绝等场景中有效,揭示了LLM量化带来的严重安全隐患。
📝 摘要(中文)
本文首次从安全角度研究了大语言模型(LLM)量化的负面影响。研究表明,广泛使用的量化方法可能被利用来生成有害的量化LLM,即使其全精度版本看起来是良性的,这可能会诱使用户部署恶意量化模型。研究提出了一个三阶段攻击框架:(1)首先,通过在对抗性任务上微调获得恶意LLM;(2)然后,量化恶意模型并计算约束,这些约束表征了映射到相同量化模型的所有全精度模型;(3)最后,使用投影梯度下降,从全精度模型中消除中毒行为,同时确保其权重满足步骤(2)中计算的约束。实验证明了这种攻击在三个不同场景中的可行性和严重性:脆弱的代码生成、内容注入和过度拒绝攻击。攻击者可以将生成的全精度模型托管在Hugging Face等LLM社区中心,从而使数百万用户面临在其设备上部署恶意量化版本的威胁。
🔬 方法详解
问题定义:现有的大语言模型量化研究主要关注量化对模型性能的影响,而忽略了量化过程可能引入的安全漏洞。攻击者可能利用量化过程,使得一个在全精度下表现正常的模型,在量化后表现出恶意行为。现有的防御方法难以检测和防御这种隐蔽的攻击。
核心思路:核心思路是设计一种攻击方法,使得全精度模型满足特定的约束条件,从而保证量化后的模型会表现出预先设定的恶意行为。通过对抗性微调,将恶意行为注入模型,然后通过约束和优化,将恶意行为隐藏在全精度模型中,只有在量化后才会显现。
技术框架:该攻击框架包含三个主要阶段:(1)恶意LLM获取:通过在对抗性任务上微调,获得一个具有恶意行为的LLM。(2)量化约束计算:量化恶意模型,并计算约束条件,这些约束条件定义了所有映射到相同量化模型的全精度模型。(3)全精度模型调整:使用投影梯度下降,调整全精度模型的权重,使其满足步骤(2)中计算的约束条件,同时消除全精度模型中的恶意行为。
关键创新:该研究的关键创新在于提出了一种能够利用量化过程引入安全漏洞的攻击方法。这种方法能够生成全精度良性但量化后恶意的LLM,从而绕过现有的安全检测机制。通过约束全精度模型的权重,确保量化后的模型会表现出预期的恶意行为。
关键设计:在恶意LLM获取阶段,需要精心设计对抗性任务,以确保能够有效地将恶意行为注入模型。在量化约束计算阶段,需要选择合适的量化方法,并精确计算约束条件。在全精度模型调整阶段,需要选择合适的优化算法(如投影梯度下降),并调整学习率等超参数,以确保能够有效地消除全精度模型中的恶意行为,同时满足约束条件。
📊 实验亮点
实验结果表明,该攻击方法在三个不同场景中有效:脆弱的代码生成、内容注入和过度拒绝攻击。攻击者可以利用该方法生成全精度良性但量化后恶意的LLM,从而绕过现有的安全检测机制。例如,在代码生成任务中,量化后的模型可以生成包含漏洞的代码,而在全精度下则不会。
🎯 应用场景
该研究揭示了LLM量化带来的安全风险,可应用于评估和改进LLM量化算法的安全性。研究结果可用于开发新的防御机制,以防止攻击者利用量化过程引入恶意行为。此外,该研究还可用于提高LLM社区中心(如Hugging Face)的模型安全性,防止恶意模型被上传和部署。
📄 摘要(原文)
Quantization leverages lower-precision weights to reduce the memory usage of large language models (LLMs) and is a key technique for enabling their deployment on commodity hardware. While LLM quantization's impact on utility has been extensively explored, this work for the first time studies its adverse effects from a security perspective. We reveal that widely used quantization methods can be exploited to produce a harmful quantized LLM, even though the full-precision counterpart appears benign, potentially tricking users into deploying the malicious quantized model. We demonstrate this threat using a three-staged attack framework: (i) first, we obtain a malicious LLM through fine-tuning on an adversarial task; (ii) next, we quantize the malicious model and calculate constraints that characterize all full-precision models that map to the same quantized model; (iii) finally, using projected gradient descent, we tune out the poisoned behavior from the full-precision model while ensuring that its weights satisfy the constraints computed in step (ii). This procedure results in an LLM that exhibits benign behavior in full precision but when quantized, it follows the adversarial behavior injected in step (i). We experimentally demonstrate the feasibility and severity of such an attack across three diverse scenarios: vulnerable code generation, content injection, and over-refusal attack. In practice, the adversary could host the resulting full-precision model on an LLM community hub such as Hugging Face, exposing millions of users to the threat of deploying its malicious quantized version on their devices.