Exploiting the Vulnerability of Large Language Models via Defense-Aware Architectural Backdoor
作者: Abdullah Arafat Miah, Yu Bi
分类: cs.CR, cs.AI, cs.AR
发布日期: 2024-09-03 (更新: 2024-09-09)
🔗 代码/项目: GITHUB
💡 一句话要点
提出一种防御感知的架构后门攻击,利用模型架构漏洞攻击大语言模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 后门攻击 大语言模型 模型安全 架构后门 白盒攻击
📋 核心要点
- 现有后门攻击主要集中在黑盒场景,依赖中毒数据,难以抵抗微调和防御机制。
- 该论文提出一种新型架构后门,通过修改模型架构植入后门,无需训练,隐蔽性更强。
- 实验证明该方法在多种数据集和模型上有效,能抵抗微调和基于概率的防御方法。
📝 摘要(中文)
深度神经网络(DNNs)长期以来被认为容易受到后门攻击。通过在微调过程中提供中毒的训练数据,攻击者可以将后门植入到受害者模型中。这使得满足特定文本触发模式的输入样本能够被分类为攻击者选择的目标标签。虽然这种黑盒攻击在计算机视觉和自然语言处理(NLP)中得到了充分的研究,但依赖于白盒攻击哲学的后门攻击几乎没有得到彻底的研究。在本文中,我们率先提出了一种新型的后门攻击,它隐藏在底层模型架构中。具体来说,我们建议设计由触发检测和噪声注入两个功能组成的独立后门模块。模型架构层的附加模块可以检测输入触发token的存在,并使用高斯噪声修改层权重,以扰乱基线模型的特征分布。我们进行了广泛的实验,以评估我们在五个不同的大型语言数据集上使用两种模型架构设置的攻击方法。我们证明了大型语言模型上无需训练的架构后门构成了真正的威胁。与最先进的工作不同,它可以经受住严格的微调和再训练过程,并逃避基于输出概率的防御方法(即BDDR)。所有代码和数据都可以在https://github.com/SiSL-URI/Arch_Backdoor_LLM上找到。
🔬 方法详解
问题定义:现有后门攻击方法主要依赖于在训练数据中注入恶意样本(中毒数据),通过微调来将后门植入模型。这种方法容易被检测和防御,例如通过检测异常的训练样本或者在模型微调过程中进行清洗。此外,现有的后门攻击主要集中在黑盒攻击场景,攻击者无法直接访问模型内部参数,攻击效果受限。因此,如何设计一种更隐蔽、更难防御的后门攻击方法是一个重要的挑战。
核心思路:该论文的核心思路是将后门隐藏在模型架构中,而不是依赖于中毒数据。具体来说,通过在模型架构中添加专门设计的后门模块,这些模块能够检测特定的输入触发器,并在检测到触发器时,通过注入噪声来改变模型的行为,从而实现后门攻击。这种方法不需要修改训练数据,因此更加隐蔽,并且能够抵抗基于数据清洗的防御方法。
技术框架:该论文提出的架构后门攻击主要包含以下几个模块:1) 触发检测模块:负责检测输入文本中是否存在预定义的触发词或模式。2) 噪声注入模块:当触发检测模块检测到触发器时,该模块会向模型的特定层注入高斯噪声,从而改变该层的权重分布,进而影响模型的输出。3) 模型集成:将上述两个模块集成到目标大语言模型的架构中,形成带有后门的模型。整个过程无需重新训练模型,可以直接应用到预训练的大语言模型上。
关键创新:该论文最重要的创新点在于提出了一种全新的后门攻击方式,即架构后门。与传统的数据中毒后门攻击相比,架构后门不需要修改训练数据,而是直接修改模型架构,从而更加隐蔽和难以检测。此外,该方法可以抵抗微调和基于概率的防御方法,因为后门隐藏在模型架构中,即使经过微调,后门仍然存在。
关键设计:论文的关键设计包括:1) 后门模块的位置:选择在模型的哪些层插入后门模块,以最大化攻击效果并最小化对模型性能的影响。2) 噪声注入策略:如何选择噪声的类型、大小和注入方式,以确保后门能够有效触发,同时避免对模型的正常功能造成过大的干扰。3) 触发器的选择:选择什么样的触发词或模式,以确保触发器能够有效触发后门,并且不容易被用户察觉。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该架构后门攻击在多种数据集和模型上均能有效植入后门,且能抵抗微调和基于输出概率的防御方法(BDDR)。在某些情况下,即使经过多次微调,后门仍然能够保持较高的攻击成功率,证明了该方法的鲁棒性。
🎯 应用场景
该研究成果可应用于评估和提升大型语言模型的安全性,帮助开发者识别和修复模型架构中的潜在后门漏洞。同时,该研究也为后门攻击的防御提供了新的思路,例如通过检测模型架构中的异常模块来识别后门。
📄 摘要(原文)
Deep neural networks (DNNs) have long been recognized as vulnerable to backdoor attacks. By providing poisoned training data in the fine-tuning process, the attacker can implant a backdoor into the victim model. This enables input samples meeting specific textual trigger patterns to be classified as target labels of the attacker's choice. While such black-box attacks have been well explored in both computer vision and natural language processing (NLP), backdoor attacks relying on white-box attack philosophy have hardly been thoroughly investigated. In this paper, we take the first step to introduce a new type of backdoor attack that conceals itself within the underlying model architecture. Specifically, we propose to design separate backdoor modules consisting of two functions: trigger detection and noise injection. The add-on modules of model architecture layers can detect the presence of input trigger tokens and modify layer weights using Gaussian noise to disturb the feature distribution of the baseline model. We conduct extensive experiments to evaluate our attack methods using two model architecture settings on five different large language datasets. We demonstrate that the training-free architectural backdoor on a large language model poses a genuine threat. Unlike the-state-of-art work, it can survive the rigorous fine-tuning and retraining process, as well as evade output probability-based defense methods (i.e. BDDR). All the code and data is available https://github.com/SiSL-URI/Arch_Backdoor_LLM.