Adversarial Contrastive Learning for LLM Quantization Attacks
作者: Dinghong Song, Zhiwei Xu, Hai Wan, Xibin Zhao, Pengfei Su, Dong Li
分类: cs.CR, cs.LG
发布日期: 2026-01-06
备注: 14 pages, 5 figures
💡 一句话要点
提出对抗对比学习ACL,提升LLM量化攻击的成功率
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM量化 对抗攻击 对比学习 安全漏洞 梯度下降
📋 核心要点
- 现有LLM量化后可能出现恶意行为,但现有攻击方法效果不佳,无法有效区分良性和有害响应。
- 提出对抗对比学习(ACL),通过最大化良性和有害响应概率的差距来提升攻击效果。
- 实验表明,ACL在多种攻击场景下显著优于现有方法,攻击成功率提升高达50.80%。
📝 摘要(中文)
模型量化对于在资源受限的硬件上部署大型语言模型(LLM)至关重要,但最近的研究表明,即使是全精度下的良性LLM在量化后也可能表现出恶意行为,存在严重的安全风险。本文提出了一种新的基于梯度的量化攻击方法,即对抗对比学习(ACL),它通过显式地最大化良性和有害响应概率之间的差距来实现卓越的攻击效果。ACL将攻击目标形式化为基于三元组的对比损失,并将其与投影梯度下降的两阶段分布式微调策略相结合,以确保稳定和高效的优化。大量实验表明ACL具有显著的有效性,在过度拒绝、越狱和广告注入方面的攻击成功率分别达到86.00%、97.69%和92.40%,显著优于最先进的方法,分别提升高达44.67%、18.84%和50.80%。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)量化后,模型可能出现的恶意行为,例如拒绝回答正常问题(过度拒绝)、违反安全策略(越狱)以及插入广告等。现有攻击方法的痛点在于无法有效区分良性和有害的响应,导致攻击成功率较低。
核心思路:论文的核心思路是通过对抗对比学习,显式地最大化良性和有害响应概率之间的差距。通过这种方式,可以更有效地引导量化后的模型产生期望的恶意行为。这种对比学习的思想借鉴了在图像识别等领域成功的经验,并将其应用于LLM的量化攻击。
技术框架:ACL的整体框架包含两个主要阶段:首先,使用投影梯度下降法(PGD)生成对抗样本,这些样本旨在诱导模型产生恶意行为。然后,使用一个两阶段的分布式微调策略来优化量化后的模型,使其更容易受到攻击。该框架的核心是基于三元组的对比损失函数,它鼓励良性响应和有害响应之间的概率差距最大化。
关键创新:ACL最重要的技术创新点在于将对比学习的思想引入到LLM的量化攻击中。与传统的攻击方法不同,ACL不是直接优化攻击目标,而是通过最大化良性和有害响应之间的差异来实现攻击。这种方法能够更有效地利用梯度信息,从而提高攻击的成功率。此外,两阶段的分布式微调策略也保证了优化过程的稳定性和效率。
关键设计:ACL的关键设计包括:1) 使用三元组损失函数来度量良性、有害和对抗样本之间的关系;2) 使用投影梯度下降法生成对抗样本,并限制扰动的大小以保证样本的合理性;3) 使用两阶段的分布式微调策略,第一阶段侧重于学习区分良性和有害响应,第二阶段侧重于增强攻击效果。具体的损失函数设计和超参数设置(如学习率、迭代次数等)需要根据不同的攻击场景进行调整。
🖼️ 关键图片
📊 实验亮点
ACL在三种攻击场景下均取得了显著的性能提升。在过度拒绝攻击中,ACL的攻击成功率达到86.00%,相比现有最佳方法提升了44.67%。在越狱攻击中,ACL的攻击成功率达到97.69%,提升了18.84%。在广告注入攻击中,ACL的攻击成功率达到92.40%,提升了50.80%。这些结果表明ACL是一种非常有效的LLM量化攻击方法。
🎯 应用场景
该研究成果可应用于评估和提升LLM量化后的安全性,帮助开发者识别和修复潜在的安全漏洞。此外,该研究也为开发更鲁棒的量化方法提供了新的思路,从而在保证模型性能的同时,降低安全风险。未来,可以进一步研究如何防御此类攻击,提高LLM在量化环境下的安全性。
📄 摘要(原文)
Model quantization is critical for deploying large language models (LLMs) on resource-constrained hardware, yet recent work has revealed severe security risks that benign LLMs in full precision may exhibit malicious behaviors after quantization. In this paper, we propose Adversarial Contrastive Learning (ACL), a novel gradient-based quantization attack that achieves superior attack effectiveness by explicitly maximizing the gap between benign and harmful responses probabilities. ACL formulates the attack objective as a triplet-based contrastive loss, and integrates it with a projected gradient descent two-stage distributed fine-tuning strategy to ensure stable and efficient optimization. Extensive experiments demonstrate ACL's remarkable effectiveness, achieving attack success rates of 86.00% for over-refusal, 97.69% for jailbreak, and 92.40% for advertisement injection, substantially outperforming state-of-the-art methods by up to 44.67%, 18.84%, and 50.80%, respectively.