Persistent Pre-Training Poisoning of LLMs

作者: Yiming Zhang, Javier Rando, Ivan Evtimov, Jianfeng Chi, Eric Michael Smith, Nicholas Carlini, Florian Tramèr, Daphne Ippolito

分类: cs.CR, cs.AI

发布日期: 2024-10-17

💡 一句话要点

揭示LLM预训练阶段投毒攻击的持久性，仅需0.1%投毒率即可持续影响微调后的模型。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 预训练 投毒攻击 安全风险 持久性 指令微调 偏好优化

📋 核心要点

现有研究表明，从网络抓取的预训练数据集容易受到恶意攻击者的投毒，并且微调数据集的投毒会导致语言模型被破坏。
本文研究了在预训练阶段对LLM进行投毒攻击的可能性，并分析了攻击在经过指令微调和偏好优化后是否仍然有效。
实验结果表明，即使是很小比例的投毒数据（0.001%-0.1%），也能使某些攻击在模型微调后仍然具有持久性。

📝 摘要（中文）

本文首次评估了大型语言模型（LLM）在预训练阶段遭受投毒攻击的可能性，并重点关注了这些攻击在模型经过指令微调（SFT）和偏好优化（DPO）后，作为有益和无害的聊天机器人时，是否仍然具有持久性。研究人员从头开始预训练了一系列LLM，模型规模从600M到7B不等，以衡量潜在攻击者在四种不同攻击目标（拒绝服务、信念操纵、越狱和提示窃取）下的影响。主要结果表明，仅需在预训练数据集中投毒0.1%，即可使其中三种攻击在后训练中产生可衡量的持久影响。更令人担忧的是，像拒绝服务这样的简单攻击，仅需0.001%的投毒率即可在后训练中持续存在。

🔬 方法详解

问题定义：论文旨在研究LLM在预训练阶段遭受投毒攻击后，攻击效果在后续的微调阶段是否仍然存在。现有方法主要关注微调阶段的投毒，而忽略了预训练阶段的潜在风险。预训练数据规模庞大且来源广泛，难以完全审查，这使得预训练阶段的投毒攻击更具隐蔽性和威胁性。

核心思路：论文的核心思路是通过控制预训练数据集的投毒比例，并观察模型在经过SFT和DPO微调后，在不同攻击目标下的表现，来评估预训练阶段投毒攻击的持久性。通过比较不同模型规模和不同攻击类型的实验结果，分析投毒攻击的有效性和影响因素。

技术框架：研究人员从头开始预训练一系列LLM，模型规模从600M到7B。在预训练阶段，向数据集中注入一定比例的恶意数据，模拟投毒攻击。然后，使用SFT和DPO对预训练模型进行微调，使其成为有益和无害的聊天机器人。最后，通过设计特定的测试用例，评估微调后的模型在不同攻击目标下的表现，例如拒绝服务、信念操纵、越狱和提示窃取。

关键创新：该研究首次系统性地评估了LLM预训练阶段投毒攻击的持久性。之前的研究主要集中在微调阶段的投毒攻击，而忽略了预训练阶段的潜在风险。该研究表明，即使是很小比例的投毒数据，也能在模型微调后产生显著的影响。

关键设计：研究中使用了四种不同的攻击目标：拒绝服务（使模型拒绝回答某些问题）、信念操纵（使模型产生错误的信念）、越狱（绕过模型的安全限制）和提示窃取（提取模型的敏感信息）。通过控制预训练数据集的投毒比例（从0.001%到0.1%），并使用不同的模型规模（从600M到7B），研究人员可以评估不同因素对攻击效果的影响。此外，研究还使用了SFT和DPO两种不同的微调方法，以评估不同微调策略对攻击持久性的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，仅需在预训练数据集中投毒0.1%，即可使三种攻击（信念操纵、越狱和提示窃取）在后训练中产生可衡量的持久影响。更令人担忧的是，像拒绝服务这样的简单攻击，仅需0.001%的投毒率即可在后训练中持续存在。这些结果表明，预训练阶段的投毒攻击对LLM的安全性构成了严重的威胁。

🎯 应用场景

该研究结果对LLM的安全性和可靠性具有重要意义。理解预训练阶段投毒攻击的持久性，有助于开发更有效的防御机制，例如数据清洗、异常检测和模型鲁棒性训练。该研究还提醒人们关注预训练数据的质量和来源，并加强对预训练数据的审查和监控，以防止恶意攻击者利用预训练阶段的漏洞。

📄 摘要（原文）

Large language models are pre-trained on uncurated text datasets consisting of trillions of tokens scraped from the Web. Prior work has shown that: (1) web-scraped pre-training datasets can be practically poisoned by malicious actors; and (2) adversaries can compromise language models after poisoning fine-tuning datasets. Our work evaluates for the first time whether language models can also be compromised during pre-training, with a focus on the persistence of pre-training attacks after models are fine-tuned as helpful and harmless chatbots (i.e., after SFT and DPO). We pre-train a series of LLMs from scratch to measure the impact of a potential poisoning adversary under four different attack objectives (denial-of-service, belief manipulation, jailbreaking, and prompt stealing), and across a wide range of model sizes (from 600M to 7B). Our main result is that poisoning only 0.1% of a model's pre-training dataset is sufficient for three out of four attacks to measurably persist through post-training. Moreover, simple attacks like denial-of-service persist through post-training with a poisoning rate of only 0.001%.

Persistent Pre-Training Poisoning of LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理