MEGen: Generative Backdoor into Large Language Models via Model Editing

作者: Jiyang Qiu, Xinbei Ma, Zhuosheng Zhang, Hai Zhao, Yun Li, Qianren Wang

分类: cs.CL, cs.AI

发布日期: 2024-08-20 (更新: 2025-09-01)

备注: ACL 2025 Findings

🔗 代码/项目: GITHUB

💡 一句话要点

提出MEGen：一种基于模型编辑的大语言模型生成式后门攻击方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 后门攻击 模型编辑 生成式后门 安全风险

📋 核心要点

现有后门攻击方法主要针对判别任务，无法充分体现大语言模型生成能力带来的安全风险。
MEGen通过模型编辑，将后门扩展到生成任务，实现任意文本到任意文本的后门触发和恶意内容生成。
实验表明，MEGen仅需少量样本和局部参数调整即可实现高攻击成功率，并能自由输出预设的危险信息。

📝 摘要（中文）

大型语言模型（LLMs）展现了卓越的通用性和适应性，但其在各种应用中的广泛采用也引发了严重的安全问题。本文关注的是植入后门的大语言模型的影响。传统的后门注入方法主要局限于“是或否”的判别任务，导致用户低估了后门大语言模型的潜在风险。鉴于LLMs固有的生成特性，本文揭示了注入到LLMs中的生成式后门会暴露其应用中真正的安全风险。我们提出了一种基于编辑的生成式后门，名为MEGen，旨在将后门扩展到生成任务，统一为任意文本到任意文本的格式，从而实现具有特定意图的自然生成。实验表明，MEGen仅通过少量样本调整一小部分局部参数即可实现高攻击成功率。值得注意的是，我们表明，当触发时，植入后门的模型可以在完成下游任务的同时自由输出预先设定的危险信息。我们的工作强调，MEGen使LLMs中的后门能够展示生成能力，通过改变生成风格造成潜在的安全风险。代码可在https://github.com/MonoQ-hub/MEGen获取。

🔬 方法详解

问题定义：本文旨在解决大语言模型（LLMs）中生成式后门攻击的问题。现有的后门攻击方法主要集中在判别任务上，例如情感分类或文本分类，无法充分利用LLMs的生成能力来造成更大的安全威胁。这些方法难以控制LLMs生成特定恶意内容，并且容易被检测到。

核心思路：本文的核心思路是通过模型编辑技术，在LLMs中植入一个生成式后门。该后门能够将任意文本输入转换为特定的恶意文本输出，从而实现对LLMs生成行为的控制。通过调整模型参数，使得在特定触发条件下，LLMs能够生成预设的危险信息，同时保持在正常任务上的性能。

技术框架：MEGen的整体框架包括以下几个主要阶段：1) 触发词选择：选择合适的触发词，这些触发词能够有效地激活后门。2) 目标文本设定：设定后门触发后需要生成的恶意文本。3) 模型编辑：使用少量样本对LLM进行编辑，调整模型参数，使得当输入包含触发词时，模型能够生成目标文本。4) 后门评估：评估后门攻击的成功率和对模型正常性能的影响。

关键创新：MEGen最重要的技术创新点在于它将后门攻击扩展到了生成任务，并利用模型编辑技术实现了对LLMs生成行为的精确控制。与传统的后门攻击方法相比，MEGen能够生成任意文本到任意文本的后门，从而能够更灵活地控制LLMs的输出，并造成更大的安全威胁。此外，MEGen只需要少量样本即可完成模型编辑，降低了攻击成本。

关键设计：MEGen的关键设计包括：1) 模型编辑策略：使用基于梯度的模型编辑方法，例如Knowledge Editor，来调整LLMs的参数。2) 损失函数设计：设计一个损失函数，鼓励模型在输入包含触发词时生成目标文本，同时保持在正常任务上的性能。该损失函数通常包括一个交叉熵损失项和一个正则化项，用于平衡攻击成功率和模型性能。3) 触发词选择策略：选择不易察觉且能够有效激活后门的触发词，例如一些罕见的词语或短语。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MEGen能够以高攻击成功率（接近100%）在LLMs中植入生成式后门，并且只需要少量样本（few-shot）即可完成模型编辑。同时，植入后门的模型在触发后，能够自由输出预设的危险信息，而对正常任务的性能影响较小。这些结果表明MEGen是一种有效的LLM后门攻击方法。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型的安全性，尤其是在涉及生成式任务的场景下，例如内容生成、对话系统和代码生成等。通过MEGen，研究人员可以更好地理解LLMs中潜在的后门风险，并开发相应的防御机制，从而确保LLMs的安全可靠应用。

📄 摘要（原文）

Large language models (LLMs) have exhibited remarkable versatility and adaptability, while their widespread adoption across various applications also raises critical safety concerns. This paper focuses on the impact of backdoored LLMs. Traditional backdoor injection methods are primarily limited to yes-or-no discriminative tasks, leading users to underestimate the potential risks of backdoored LLMs. Given the inherently generative nature of LLMs, this paper reveals that a generative backdoor injected into LLMs can expose the true safety risks in their applications. We propose an editing-based generative backdoor, named MEGen, aiming to expand the backdoor to generative tasks in a unified format of any text-to any text, leading to natural generations with a specific intention. Experiments show that MEGen achieves a high attack success rate by adjusting only a small set of local parameters with few-shot samples. Notably, we show that the backdoored model, when triggered, can freely output pre-set dangerous information while completing downstream tasks. Our work highlights that MEGen enables backdoors in LLMs to exhibit generative capabilities, causing potential safety risks by altering the generative style. The code is available at https://github.com/MonoQ-hub/MEGen.

MEGen: Generative Backdoor into Large Language Models via Model Editing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理