MEOW: MEMOry Supervised LLM Unlearning Via Inverted Facts
作者: Tianle Gu, Kexin Huang, Ruilin Luo, Yuanqi Yao, Yujiu Yang, Yan Teng, Yingchun Wang
分类: cs.CL, cs.AI
发布日期: 2024-09-18
💡 一句话要点
MEOW:通过反向事实和记忆监督的大语言模型卸载学习方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 卸载学习 隐私保护 反向事实 记忆量化
📋 核心要点
- 现有LLM卸载学习方法在效用性、效率和鲁棒性方面存在挑战,容易导致模型性能下降和信息泄露。
- MEOW方法利用离线LLM生成反向事实,并设计MEMO指标来指导模型微调,从而实现高效且鲁棒的卸载学习。
- 实验表明,MEOW在ToFU基准测试中显著提高了忘记质量,同时保持了模型在NLU和NLG任务上的性能。
📝 摘要(中文)
大型语言模型(LLMs)会记忆敏感信息,引发了对潜在滥用的担忧。LLM卸载学习是一种事后方法,旨在从已训练的LLM中移除这些信息,为缓解这些风险提供了一种有希望的解决方案。然而,以往的方法面临三个关键挑战:1. 效用性:成功的卸载学习通常会导致不相关任务的灾难性崩溃。2. 效率:许多方法要么涉及添加类似大小的模型,这会减慢卸载学习或推理速度,要么需要难以获得的保留数据。3. 鲁棒性:即使有效的方法也可能通过提取技术泄露数据。为了应对这些挑战,我们提出MEOW,一种简单而有效的基于梯度下降的卸载学习方法。具体来说,我们使用离线LLM生成一组反向事实。然后,我们设计了一个新的指标MEMO来量化LLM中的记忆。最后,基于MEMO提供的信号,我们选择最合适的反向事实集,并基于它们微调模型。我们在常用的卸载学习基准ToFU上,使用Llama2-7B-Chat和Phi-1.5B评估MEOW,并在NLU和NLG任务上对其进行测试。结果表明,MEOW在忘记质量方面有显著提高,而模型效用没有显著损失。同时,MEOW在NLU或NLG能力方面没有表现出明显的下降,甚至在NLU性能方面略有提高。
🔬 方法详解
问题定义:大型语言模型(LLMs)容易记忆敏感信息,带来安全隐患。现有的LLM卸载学习方法通常面临三个问题:一是卸载学习后模型在其他任务上的性能大幅下降(效用性问题);二是卸载学习过程效率低下,需要大量计算资源或难以获取的数据;三是卸载后的模型仍然可能通过某些攻击手段泄露已卸载的信息(鲁棒性问题)。
核心思路:MEOW的核心思路是利用“反向事实”来抵消模型中已记忆的敏感信息。通过生成与敏感信息相反的事实,并使用这些反向事实来微调模型,从而使模型“忘记”原始的敏感信息。同时,引入MEMO指标来量化模型对特定信息的记忆程度,并指导反向事实的选择,以避免过度卸载导致的模型性能下降。
技术框架:MEOW方法主要包含以下几个阶段:1. 反向事实生成:使用一个离线的LLM(例如,一个预训练但未经过特定数据训练的模型)来生成与目标卸载信息相反的事实。2. MEMO指标计算:设计MEMO指标来量化模型对特定信息的记忆程度。该指标可能基于模型对原始事实和反向事实的预测概率差异。3. 反向事实选择:基于MEMO指标,选择最能有效降低模型对目标信息记忆程度的反向事实子集。4. 模型微调:使用选择的反向事实子集来微调原始LLM,从而实现卸载学习。
关键创新:MEOW的关键创新在于:1. 提出了基于反向事实的卸载学习方法,避免了直接修改模型参数的复杂性。2. 设计了MEMO指标,用于量化模型记忆程度,并指导反向事实的选择,从而提高了卸载学习的效率和效果。3. 结合了离线LLM生成反向事实,降低了对原始训练数据的依赖。
关键设计:MEMO指标的具体计算方式未知,但推测可能涉及计算模型对原始事实和反向事实的预测概率,并根据这些概率的差异来评估模型的记忆程度。反向事实的选择可能基于贪心算法或强化学习等方法,以选择能够最大程度降低MEMO指标的反向事实子集。微调过程可能采用标准的梯度下降算法,并使用交叉熵损失函数来优化模型参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MEOW方法在ToFU基准测试中显著提高了忘记质量,同时没有显著降低模型在NLU和NLG任务上的性能。更令人惊讶的是,MEOW甚至在NLU任务上略微提升了性能。这些结果表明,MEOW是一种高效且有效的LLM卸载学习方法,能够在保护隐私的同时保持模型效用。
🎯 应用场景
MEOW方法可应用于各种需要保护用户隐私和数据安全的场景,例如:金融、医疗、法律等领域。通过卸载模型中存储的敏感信息,可以降低数据泄露的风险,并提高模型的安全性和可靠性。此外,该方法还可以用于修复模型中的偏见和错误信息,从而提高模型的公平性和准确性。未来,MEOW方法有望成为LLM安全部署的重要技术手段。
📄 摘要(原文)
Large Language Models (LLMs) can memorize sensitive information, raising concerns about potential misuse. LLM Unlearning, a post-hoc approach to remove this information from trained LLMs, offers a promising solution to mitigate these risks. However, previous practices face three key challenges: 1. Utility: successful unlearning often causes catastrophic collapse on unrelated tasks. 2. Efficiency: many methods either involve adding similarly sized models, which slows down unlearning or inference, or require retain data that are difficult to obtain. 3. Robustness: even effective methods may still leak data via extraction techniques. To address these challenges, we propose MEOW, a simple yet effective gradient descent-based unlearning method. Specifically, we use an offline LLM to generate a set of inverted facts. Then, we design a new metric, MEMO, to quantify memorization in LLMs. Finally, based on the signals provided by MEMO, we select the most appropriate set of inverted facts and finetune the model based on them. We evaluate MEOW on the commonly used unlearn benchmark, ToFU, with Llama2-7B-Chat and Phi-1.5B, and test it on both NLU and NLG tasks. Results demonstrate significant improvement of MEOW in forget quality without substantial loss in model utility. Meanwhile, MEOW does not exhibit significant degradation in NLU or NLG capabilities, and there is even a slight improvement in NLU performance.