Can Editing LLMs Inject Harm?
作者: Canyu Chen, Baixiang Huang, Zekun Li, Zhaorun Chen, Shiyang Lai, Xiongxiao Xu, Jia-Chen Gu, Jindong Gu, Huaxiu Yao, Chaowei Xiao, Xifeng Yan, William Yang Wang, Philip Torr, Dawn Song, Kai Shu
分类: cs.CL
发布日期: 2024-07-29 (更新: 2026-01-14)
备注: Accepted to Proceedings of AAAI 2026. The first two authors contributed equally. 7 pages for main paper, 31 pages including appendix. The code, results, dataset for this paper and more resources are on the project website: https://llm-editing.github.io
💡 一句话要点
提出编辑攻击,揭示LLM知识编辑中注入有害信息的新安全威胁
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 知识编辑 安全攻击 错误信息注入 偏见注入 安全对齐 EditAttack数据集
📋 核心要点
- 大型语言模型面临安全对齐挑战,现有方法难以防范通过知识编辑进行的隐蔽攻击。
- 论文提出“编辑攻击”概念,通过知识编辑将有害信息注入LLM,绕过安全机制。
- 实验证明编辑攻击可有效注入错误信息和偏见,且具有高度隐蔽性,对LLM的公平性产生负面影响。
📝 摘要(中文)
大型语言模型(LLMs)已成为一种新的信息渠道。与此同时,一个关键但未被充分探索的问题是:是否有可能绕过安全对齐,隐蔽地将有害信息注入LLMs?在本文中,我们提出将知识编辑重新定义为LLMs的一种新型安全威胁,即编辑攻击,并使用新构建的数据集EditAttack进行了系统研究。具体来说,我们关注编辑攻击的两种典型安全风险,包括错误信息注入和偏见注入。对于第一种风险,我们发现编辑攻击可以将常识和长尾错误信息注入LLMs,并且前者尤其有效。对于第二种风险,我们发现不仅可以将有偏见的句子高效地注入LLMs,而且单句偏见注入会降低整体公平性。然后,我们进一步说明了编辑攻击的高度隐蔽性。我们的发现表明,知识编辑技术存在新兴的滥用风险,可能会损害LLMs的安全对齐,并可能利用LLMs作为新的渠道来传播错误信息或偏见。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLMs)是否容易受到通过知识编辑注入有害信息的影响。现有方法主要关注LLMs的预训练和微调阶段的安全对齐,但忽略了知识编辑技术可能带来的安全风险,即攻击者可以通过编辑LLMs的知识库,悄无声息地注入错误信息或偏见,绕过现有的安全机制。
核心思路:论文的核心思路是将知识编辑重新定义为一种新型的安全威胁,即“编辑攻击”。通过精心设计的攻击策略,利用知识编辑技术修改LLMs的内部知识,从而使其生成有害或不准确的内容。这种攻击方式的隐蔽性很高,因为它可以直接修改LLMs的知识,而无需改变其生成文本的表面特征。
技术框架:论文构建了一个名为EditAttack的数据集,用于评估编辑攻击的效果。该数据集包含两类攻击目标:错误信息注入和偏见注入。针对这两类攻击,论文设计了相应的编辑策略,例如,通过修改LLMs的知识三元组来注入错误信息,或者通过添加带有偏见的句子来改变LLMs的观点。然后,论文使用一系列指标来评估攻击的有效性和隐蔽性,例如,生成文本的准确性、公平性和流畅度。
关键创新:论文最重要的技术创新点在于提出了“编辑攻击”这一新的安全威胁概念,并系统地研究了知识编辑技术在LLMs安全方面的潜在风险。与以往的安全研究不同,该论文关注的是通过修改LLMs的知识库来进行攻击,而不是通过对抗样本或提示工程等方式。这种攻击方式更加隐蔽和难以检测,对LLMs的安全构成了新的挑战。
关键设计:论文的关键设计包括:1) EditAttack数据集的构建,该数据集包含了多种类型的错误信息和偏见,可以用于全面评估编辑攻击的效果;2) 针对不同攻击目标的编辑策略设计,例如,使用知识图谱补全技术来注入常识错误,或者使用情感分析技术来注入偏见;3) 评估指标的选择,论文使用了准确率、公平性指标(如Equal Opportunity Difference)和流畅度等多个指标来综合评估攻击的效果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,编辑攻击可以有效地将常识和长尾错误信息注入LLMs,特别是对于常识错误,攻击成功率很高。此外,单句偏见注入即可显著降低LLMs的整体公平性。攻击的隐蔽性也很高,难以被现有安全机制检测到。
🎯 应用场景
该研究成果可应用于提升大型语言模型的安全性,例如开发防御机制,检测和阻止恶意知识编辑。此外,该研究也提醒人们关注AI系统的潜在滥用风险,促进负责任的AI开发和部署,避免LLM被用于传播虚假信息或歧视性内容。
📄 摘要(原文)
Large Language Models (LLMs) have emerged as a new information channel. Meanwhile, one critical but under-explored question is: Is it possible to bypass the safety alignment and inject harmful information into LLMs stealthily? In this paper, we propose to reformulate knowledge editing as a new type of safety threat for LLMs, namely Editing Attack, and conduct a systematic investigation with a newly constructed dataset EditAttack. Specifically, we focus on two typical safety risks of Editing Attack including Misinformation Injection and Bias Injection. For the first risk, we find that editing attacks can inject both commonsense and long-tail misinformation into LLMs, and the effectiveness for the former one is particularly high. For the second risk, we discover that not only can biased sentences be injected into LLMs with high effectiveness, but also one single biased sentence injection can degrade the overall fairness. Then, we further illustrate the high stealthiness of editing attacks. Our discoveries demonstrate the emerging misuse risks of knowledge editing techniques on compromising the safety alignment of LLMs and the feasibility of disseminating misinformation or bias with LLMs as new channels.