Obliviate: Efficient Unmemorization for Protecting Intellectual Property in Large Language Models

📄 arXiv: 2502.15010v2 📥 PDF

作者: Mark Russinovich, Ahmed Salem

分类: cs.CL, cs.AI, cs.CR, cs.LG

发布日期: 2025-02-20 (更新: 2025-06-12)


💡 一句话要点

Obliviate:一种高效的遗忘方法,用于保护大型语言模型中的知识产权

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识产权保护 大型语言模型 遗忘学习 后训练 版权合规

📋 核心要点

  1. 现有方法在抑制LLM对版权文本的精确复制时,要么牺牲模型效用,要么无法充分解决逐字泄漏问题。
  2. Obliviate通过KL散度惩罚调整模型输出分布,降低目标token的精确复制概率,并使用一致性损失保持模型流畅性。
  3. 实验表明,Obliviate能显著减少逐字回忆,同时对下游任务准确率的影响很小,使其成为实用的版权合规方案。

📝 摘要(中文)

人工智能公司和内容创作者之间最新的版权协议强调了对语言模型复制受版权保护文本的能力进行细粒度控制的需求。现有的防御措施——从激进的非学习到简单的输出过滤器——要么牺牲了模型的效用,要么不足以解决逐字泄漏的问题。我们介绍 Obliviate,这是一种轻量级的后训练方法,可以巧妙地抑制指定序列的精确复制,同时保留语义理解。Obliviate 首先识别记忆的段落,然后,对于每个目标 token,通过 Kullback-Leibler 散度惩罚来最小化地调整模型的输出分布,以降低精确复制的概率。同时,我们在非目标 token 上强制执行一致性损失,以保持模型的流畅性和任务性能。我们在四个流行的 6-8B 参数模型(LLaMA-3.1、LLaMA-3.1-Instruct、Qwen-2.5 和 Yi-1.5)上,使用合成记忆基准和有机的受版权保护的摘录(例如,《白鲸记》、《科学怪人》、《爱丽丝梦游仙境》和《悲惨世界》)评估 Obliviate。在所有设置中,Obliviate 将逐字回忆减少了两个数量级(例如,从数百个单词减少到少于 12 个),同时在 HellaSwag、MMLU、TruthfulQA 和 Winogrande 上的下游准确率最多降低 1%。此外,我们使用 MUSE 和 CoTaEval 基准测试将 Obliviate 与不同的非学习和版权技术进行了基准测试。这些结果将 Obliviate 定位为部署的 LLM 中版权合规性的实用、高保真解决方案。

🔬 方法详解

问题定义:大型语言模型(LLM)容易记忆并重复生成训练数据中的内容,这可能导致侵犯知识产权。现有方法,如完全的unlearning或简单的过滤,要么代价过高(影响模型性能),要么效果不佳(无法完全阻止精确复制)。因此,需要一种高效且精确的方法来抑制LLM对特定文本序列的记忆和重复生成。

核心思路:Obliviate的核心思想是在后训练阶段,通过微调模型的输出分布,选择性地降低目标token(即需要遗忘的文本序列中的token)的生成概率,同时保持模型在其他方面的性能。这种方法避免了对整个模型进行大规模的重新训练,从而提高了效率。

技术框架:Obliviate主要包含以下几个步骤:1) 识别记忆段落:确定模型记忆的需要遗忘的文本序列。2) 目标Token调整:对于每个目标token,计算其原始输出分布,并施加一个基于Kullback-Leibler (KL) 散度的惩罚项,以降低该token的生成概率。3) 一致性损失:为了保持模型的流畅性和任务性能,对非目标token施加一致性损失,确保它们的输出分布与原始模型尽可能接近。4) 模型微调:使用上述损失函数对模型进行微调,从而实现对特定文本序列的遗忘。

关键创新:Obliviate的关键创新在于其选择性的遗忘机制。与传统的unlearning方法不同,Obliviate只针对需要遗忘的特定文本序列进行调整,避免了对整个模型的全局性扰动。此外,通过KL散度惩罚和一致性损失的结合,Obliviate能够在抑制精确复制的同时,最大程度地保留模型的语义理解和生成能力。

关键设计:Obliviate的关键设计包括:1) KL散度惩罚:使用KL散度来衡量调整后的输出分布与原始输出分布之间的差异,从而控制遗忘的强度。2) 一致性损失:使用交叉熵损失或均方误差损失来衡量非目标token的输出分布与原始输出分布之间的差异,从而保持模型的流畅性。3) 超参数调整:需要仔细调整KL散度惩罚和一致性损失的权重,以在遗忘效果和模型性能之间取得平衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Obliviate在四个6-8B参数的LLM模型(LLaMA-3.1, LLaMA-3.1-Instruct, Qwen-2.5, Yi-1.5)上进行了评估。实验结果表明,Obliviate可以将逐字回忆减少两个数量级(例如,从数百个单词减少到少于12个),同时在HellaSwag、MMLU、TruthfulQA和Winogrande等下游任务上的准确率最多降低1%。与现有unlearning和版权保护技术相比,Obliviate在MUSE和CoTaEval基准测试中表现出更优的性能。

🎯 应用场景

Obliviate可应用于各种需要保护知识产权的场景,例如:防止LLM泄露受版权保护的文本、删除模型中包含的个人隐私信息、以及应对模型生成有害或不当内容的情况。该方法能够帮助企业和研究机构更安全地部署和使用LLM,降低法律风险和伦理风险。

📄 摘要(原文)

Recent copyright agreements between AI companies and content creators underscore the need for fine-grained control over language models' ability to reproduce copyrighted text. Existing defenses-ranging from aggressive unlearning to simplistic output filters-either sacrifice model utility or inadequately address verbatim leakage. We introduce Obliviate, a lightweight post-training method that surgically suppresses exact reproduction of specified sequences while preserving semantic understanding. Obliviate first identifies memorized passages and then, for each target token, minimally adjusts the model's output distribution via a Kullback-Leibler divergence penalty to drive down the probability of exact reproduction. Simultaneously, we enforce a consistency loss on non-target tokens to retain the model's fluency and task performance. We evaluate Obliviate on four popular 6-8B-parameter models (LLaMA-3.1, LLaMA-3.1-Instruct, Qwen-2.5, and Yi-1.5) using synthetic memorization benchmarks and organic copyrighted excerpts (e.g., Moby Dick, Frankenstein, Alice in Wonderland and Les Miserables). Across all settings, Obliviate reduces verbatim recall by two orders of magnitude (e.g., from hundreds of words to fewer than 12) while degrading downstream accuracy by at most 1% on HellaSwag, MMLU, TruthfulQA, and Winogrande. Furthermore, we benchmark Obliviate aganist different unlearning and copyright techniques using the MUSE and CoTaEval benchmarks. These results position Obliviate as a practical, high-fidelity solution for copyright compliance in deployed LLMs.