Persistent Pre-Training Poisoning of LLMs
作者: Yiming Zhang, Javier Rando, Ivan Evtimov, Jianfeng Chi, Eric Michael Smith, Nicholas Carlini, Florian Tramèr, Daphne Ippolito
分类: cs.CR, cs.AI
发布日期: 2024-10-17
💡 一句话要点
揭示LLM预训练阶段投毒攻击的持久性,仅需0.1%投毒率即可持续影响微调后的模型。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 预训练 投毒攻击 安全风险 持久性 指令微调 偏好优化
📋 核心要点
- 现有研究表明,从网络抓取的预训练数据集容易受到恶意攻击者的投毒,并且微调数据集的投毒会导致语言模型被破坏。
- 本文研究了在预训练阶段对LLM进行投毒攻击的可能性,并分析了攻击在经过指令微调和偏好优化后是否仍然有效。
- 实验结果表明,即使是很小比例的投毒数据(0.001%-0.1%),也能使某些攻击在模型微调后仍然具有持久性。
📝 摘要(中文)
本文首次评估了大型语言模型(LLM)在预训练阶段遭受投毒攻击的可能性,并重点关注了这些攻击在模型经过指令微调(SFT)和偏好优化(DPO)后,作为有益和无害的聊天机器人时,是否仍然具有持久性。研究人员从头开始预训练了一系列LLM,模型规模从600M到7B不等,以衡量潜在攻击者在四种不同攻击目标(拒绝服务、信念操纵、越狱和提示窃取)下的影响。主要结果表明,仅需在预训练数据集中投毒0.1%,即可使其中三种攻击在后训练中产生可衡量的持久影响。更令人担忧的是,像拒绝服务这样的简单攻击,仅需0.001%的投毒率即可在后训练中持续存在。
🔬 方法详解
问题定义:论文旨在研究LLM在预训练阶段遭受投毒攻击后,攻击效果在后续的微调阶段是否仍然存在。现有方法主要关注微调阶段的投毒,而忽略了预训练阶段的潜在风险。预训练数据规模庞大且来源广泛,难以完全审查,这使得预训练阶段的投毒攻击更具隐蔽性和威胁性。
核心思路:论文的核心思路是通过控制预训练数据集的投毒比例,并观察模型在经过SFT和DPO微调后,在不同攻击目标下的表现,来评估预训练阶段投毒攻击的持久性。通过比较不同模型规模和不同攻击类型的实验结果,分析投毒攻击的有效性和影响因素。
技术框架:研究人员从头开始预训练一系列LLM,模型规模从600M到7B。在预训练阶段,向数据集中注入一定比例的恶意数据,模拟投毒攻击。然后,使用SFT和DPO对预训练模型进行微调,使其成为有益和无害的聊天机器人。最后,通过设计特定的测试用例,评估微调后的模型在不同攻击目标下的表现,例如拒绝服务、信念操纵、越狱和提示窃取。
关键创新:该研究首次系统性地评估了LLM预训练阶段投毒攻击的持久性。之前的研究主要集中在微调阶段的投毒攻击,而忽略了预训练阶段的潜在风险。该研究表明,即使是很小比例的投毒数据,也能在模型微调后产生显著的影响。
关键设计:研究中使用了四种不同的攻击目标:拒绝服务(使模型拒绝回答某些问题)、信念操纵(使模型产生错误的信念)、越狱(绕过模型的安全限制)和提示窃取(提取模型的敏感信息)。通过控制预训练数据集的投毒比例(从0.001%到0.1%),并使用不同的模型规模(从600M到7B),研究人员可以评估不同因素对攻击效果的影响。此外,研究还使用了SFT和DPO两种不同的微调方法,以评估不同微调策略对攻击持久性的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,仅需在预训练数据集中投毒0.1%,即可使三种攻击(信念操纵、越狱和提示窃取)在后训练中产生可衡量的持久影响。更令人担忧的是,像拒绝服务这样的简单攻击,仅需0.001%的投毒率即可在后训练中持续存在。这些结果表明,预训练阶段的投毒攻击对LLM的安全性构成了严重的威胁。
🎯 应用场景
该研究结果对LLM的安全性和可靠性具有重要意义。理解预训练阶段投毒攻击的持久性,有助于开发更有效的防御机制,例如数据清洗、异常检测和模型鲁棒性训练。该研究还提醒人们关注预训练数据的质量和来源,并加强对预训练数据的审查和监控,以防止恶意攻击者利用预训练阶段的漏洞。
📄 摘要(原文)
Large language models are pre-trained on uncurated text datasets consisting of trillions of tokens scraped from the Web. Prior work has shown that: (1) web-scraped pre-training datasets can be practically poisoned by malicious actors; and (2) adversaries can compromise language models after poisoning fine-tuning datasets. Our work evaluates for the first time whether language models can also be compromised during pre-training, with a focus on the persistence of pre-training attacks after models are fine-tuned as helpful and harmless chatbots (i.e., after SFT and DPO). We pre-train a series of LLMs from scratch to measure the impact of a potential poisoning adversary under four different attack objectives (denial-of-service, belief manipulation, jailbreaking, and prompt stealing), and across a wide range of model sizes (from 600M to 7B). Our main result is that poisoning only 0.1% of a model's pre-training dataset is sufficient for three out of four attacks to measurably persist through post-training. Moreover, simple attacks like denial-of-service persist through post-training with a poisoning rate of only 0.001%.