When Machine Unlearning Meets Retrieval-Augmented Generation (RAG): Keep Secret or Forget Knowledge?

📄 arXiv: 2410.15267v2 📥 PDF

作者: Shang Wang, Tianqing Zhu, Dayong Ye, Wanlei Zhou

分类: cs.CR, cs.CL

发布日期: 2024-10-20 (更新: 2025-10-13)

备注: 16 pages, 9 figures, 13 tables. To appear in IEEE Transactions on Dependable and Secure Computing (TDSC), 2025


💡 一句话要点

提出基于RAG的轻量级行为遗忘框架,解决LLM的敏感信息泄露问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器遗忘 检索增强生成 大型语言模型 隐私保护 知识库构建

📋 核心要点

  1. 现有机器遗忘方法计算成本高昂,适用性受限,且存在灾难性遗忘的风险,难以有效应用于大型语言模型。
  2. 论文提出基于检索增强生成(RAG)的轻量级行为遗忘框架,通过修改RAG的外部知识库来模拟遗忘,无需直接干预LLM。
  3. 实验结果表明,该方法在开源和闭源LLM上均表现良好,满足有效性、通用性、无害性、简单性和鲁棒性等遗忘标准。

📝 摘要(中文)

大型语言模型(LLMs)如ChatGPT和Gemini的部署展示了其强大的自然语言生成能力。然而,这些模型可能在训练过程中无意中学习并保留敏感信息和有害内容,引发了重要的伦理和法律问题。为了解决这些问题,机器遗忘被引入作为一种潜在的解决方案。虽然现有的遗忘方法考虑了LLM的特定特征,但它们通常面临计算需求高、适用性有限或灾难性遗忘的风险。为了解决这些局限性,我们提出了一种基于检索增强生成(RAG)技术的轻量级行为遗忘框架。通过修改RAG的外部知识库,我们模拟了遗忘的效果,而无需直接与未学习的LLM交互。我们将未学习知识的构建视为一个约束优化问题,推导出RAG遗忘有效性的两个关键组成部分。这种基于RAG的方法对于闭源LLM尤其有效,而现有的遗忘方法通常在此失效。我们通过对开源和闭源模型(包括ChatGPT、Gemini、Llama-2-7b-chat和PaLM 2)进行的大量实验来评估我们的框架。结果表明,我们的方法满足了五个关键的遗忘标准:有效性、通用性、无害性、简单性和鲁棒性。同时,该方法可以扩展到多模态大型语言模型和基于LLM的代理。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在训练过程中学习并保留敏感信息和有害内容的问题。现有机器遗忘方法存在计算成本高、适用性有限以及灾难性遗忘等痛点,尤其是在闭源LLM上效果不佳。

核心思路:论文的核心思路是利用检索增强生成(RAG)框架,通过修改RAG的外部知识库来模拟LLM的遗忘行为。这种方法避免了直接修改LLM的参数,从而降低了计算成本和灾难性遗忘的风险。通过构建“未学习”的知识库,引导LLM在生成内容时避免涉及敏感信息。

技术框架:该框架主要包含以下几个阶段:1)构建原始知识库;2)确定需要遗忘的知识;3)构建“未学习”的知识库,该知识库通过约束优化问题生成,旨在消除或替换原始知识库中与敏感信息相关的内容;4)使用RAG框架,LLM从“未学习”的知识库中检索相关信息,并生成最终的输出。

关键创新:该方法最重要的创新点在于将机器遗忘问题转化为对RAG框架外部知识库的修改,从而实现轻量级的行为遗忘。与直接修改LLM参数的传统方法相比,该方法计算成本更低,且更适用于闭源LLM。此外,将“未学习”知识的构建形式化为约束优化问题,为知识库的构建提供了理论基础。

关键设计:论文将构建“未学习”知识库定义为一个约束优化问题,目标是在消除敏感信息的同时,尽可能保留原始知识库中的有用信息。具体的技术细节包括:1)定义敏感信息的识别和度量方法;2)设计损失函数,用于衡量“未学习”知识库与原始知识库之间的差异,以及“未学习”知识库中敏感信息的残留程度;3)采用合适的优化算法,求解约束优化问题,生成最终的“未学习”知识库。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在ChatGPT、Gemini、Llama-2-7b-chat和PaLM 2等模型上均取得了良好的遗忘效果,满足有效性、通用性、无害性、简单性和鲁棒性等关键标准。尤其是在闭源模型上,该方法表现出优于现有方法的性能。具体性能数据未知,但论文强调该方法在多个遗忘标准上均表现出色。

🎯 应用场景

该研究成果可应用于各种需要保护用户隐私和数据安全的场景,例如金融、医疗、法律等领域。通过该方法,可以有效防止LLM泄露敏感信息,提高LLM在实际应用中的安全性和可靠性。未来,该方法可以进一步扩展到多模态LLM和LLM驱动的智能体,使其在更广泛的应用场景中发挥作用。

📄 摘要(原文)

The deployment of large language models (LLMs) like ChatGPT and Gemini has shown their powerful natural language generation capabilities. However, these models can inadvertently learn and retain sensitive information and harmful content during training, raising significant ethical and legal concerns. To address these issues, machine unlearning has been introduced as a potential solution. While existing unlearning methods take into account the specific characteristics of LLMs, they often suffer from high computational demands, limited applicability, or the risk of catastrophic forgetting. To address these limitations, we propose a lightweight behavioral unlearning framework based on Retrieval-Augmented Generation (RAG) technology. By modifying the external knowledge base of RAG, we simulate the effects of forgetting without directly interacting with the unlearned LLM. We approach the construction of unlearned knowledge as a constrained optimization problem, deriving two key components that underpin the effectiveness of RAG-based unlearning. This RAG-based approach is particularly effective for closed-source LLMs, where existing unlearning methods often fail. We evaluate our framework through extensive experiments on both open-source and closed-source models, including ChatGPT, Gemini, Llama-2-7b-chat, and PaLM 2. The results demonstrate that our approach meets five key unlearning criteria: effectiveness, universality, harmlessness, simplicity, and robustness. Meanwhile, this approach can extend to multimodal large language models and LLM-based agents.