Step-by-Step Reasoning Attack: Revealing 'Erased' Knowledge in Large Language Models
作者: Yash Sinha, Manit Baser, Murari Mandal, Dinil Mon Divakaran, Mohan Kankanhalli
分类: cs.CR, cs.AI
发布日期: 2025-06-14
💡 一句话要点
提出 Sleek 攻击,揭示大语言模型中基于逐步推理的知识擦除漏洞
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 知识擦除 遗忘学习 对抗攻击 逐步推理
📋 核心要点
- 现有大语言模型知识擦除方法存在缺陷,无法彻底删除知识,导致信息泄露风险。
- 提出 Sleek 攻击,利用逐步推理生成对抗性提示,从而恢复被擦除的知识。
- 实验表明,Sleek 攻击能有效突破现有遗忘技术的防御,揭示其知识擦除不彻底的问题。
📝 摘要(中文)
大语言模型(LLM)中的知识擦除对于确保符合数据和人工智能法规、保障用户隐私以及减轻偏见和错误信息至关重要。现有的知识遗忘方法旨在通过移除特定知识同时保持整体模型性能(特别是对于保留信息)来提高知识擦除的效率和效果。然而,观察表明,这些遗忘技术倾向于抑制知识并将其隐藏在表面之下,因此可以通过正确的提示来检索这些隐藏信息。本文证明了逐步推理可以作为后门来恢复这些隐藏信息。我们引入了一种基于逐步推理的黑盒攻击 Sleek,该攻击系统地揭示了遗忘失败。我们采用了一个结构化的攻击框架,包含三个核心组件:(1)一种利用LLM生成的查询构建的、基于逐步推理的对抗性提示生成策略;(2)一种成功回忆起已擦除内容并揭示旨在保留的知识的不公平抑制的攻击机制;(3)提示的分类,分为直接、间接和隐含,以识别哪些查询类型最有效地利用了遗忘的弱点。通过对四种最先进的遗忘技术和两种广泛使用的LLM的广泛评估,我们表明现有方法未能确保可靠的知识移除。在生成的对抗性提示中,62.5%成功地从WHP-unlearned Llama中检索到被遗忘的哈利波特事实,而50%揭示了对保留知识的不公平抑制。我们的工作强调了信息泄露的持续风险,强调需要更强大的遗忘策略来实现擦除。
🔬 方法详解
问题定义:论文旨在解决大语言模型知识擦除不彻底的问题。现有遗忘方法虽然尝试移除特定知识,但往往只是抑制而非彻底删除,导致这些知识仍然可以通过特定的方式被恢复。这种不彻底的擦除会带来信息泄露的风险,例如泄露用户隐私数据或模型中存在的偏见信息。
核心思路:论文的核心思路是利用逐步推理作为“后门”,通过精心设计的对抗性提示,诱导模型逐步回忆起被擦除的知识。逐步推理能够引导模型进行更深入的思考,从而绕过遗忘机制的限制,暴露出隐藏在模型内部的知识。
技术框架:Sleek 攻击框架包含三个主要组件:1) 对抗性提示生成:利用 LLM 生成查询,并基于逐步推理构建对抗性提示。2) 攻击机制:利用生成的提示,尝试回忆起被擦除的内容,并检测对保留知识的不公平抑制。3) 提示分类:将提示分为直接、间接和隐含三种类型,分析哪种类型的提示最能有效利用遗忘的弱点。
关键创新:Sleek 攻击的关键创新在于其利用逐步推理来绕过遗忘机制。与直接查询不同,逐步推理能够引导模型进行更深入的思考,从而更容易地恢复被擦除的知识。此外,Sleek 攻击还通过对提示进行分类,系统地分析了不同类型提示的攻击效果。
关键设计:对抗性提示生成策略是 Sleek 攻击的关键。论文使用 LLM 生成初始查询,然后通过迭代的方式,逐步添加推理步骤,构建出能够有效诱导模型回忆起被擦除知识的提示。提示的分类(直接、间接和隐含)也为分析遗忘机制的弱点提供了有价值的信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Sleek 攻击能够有效突破现有遗忘技术的防御。例如,在 WHP-unlearned Llama 模型上,62.5% 的对抗性提示成功检索到被遗忘的哈利波特事实。此外,50% 的提示揭示了对保留知识的不公平抑制,表明现有遗忘方法可能对模型的整体性能产生负面影响。
🎯 应用场景
该研究成果可应用于评估和改进大语言模型的知识擦除技术,确保模型能够彻底删除敏感信息,防止信息泄露。这对于保护用户隐私、遵守数据安全法规以及减少模型偏见至关重要。未来的研究可以基于此,开发更鲁棒的知识擦除方法。
📄 摘要(原文)
Knowledge erasure in large language models (LLMs) is important for ensuring compliance with data and AI regulations, safeguarding user privacy, mitigating bias, and misinformation. Existing unlearning methods aim to make the process of knowledge erasure more efficient and effective by removing specific knowledge while preserving overall model performance, especially for retained information. However, it has been observed that the unlearning techniques tend to suppress and leave the knowledge beneath the surface, thus making it retrievable with the right prompts. In this work, we demonstrate that \textit{step-by-step reasoning} can serve as a backdoor to recover this hidden information. We introduce a step-by-step reasoning-based black-box attack, Sleek, that systematically exposes unlearning failures. We employ a structured attack framework with three core components: (1) an adversarial prompt generation strategy leveraging step-by-step reasoning built from LLM-generated queries, (2) an attack mechanism that successfully recalls erased content, and exposes unfair suppression of knowledge intended for retention and (3) a categorization of prompts as direct, indirect, and implied, to identify which query types most effectively exploit unlearning weaknesses. Through extensive evaluations on four state-of-the-art unlearning techniques and two widely used LLMs, we show that existing approaches fail to ensure reliable knowledge removal. Of the generated adversarial prompts, 62.5% successfully retrieved forgotten Harry Potter facts from WHP-unlearned Llama, while 50% exposed unfair suppression of retained knowledge. Our work highlights the persistent risks of information leakage, emphasizing the need for more robust unlearning strategies for erasure.