Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs

📄 arXiv: 2406.10209v2 📥 PDF

作者: Abhimanyu Hans, Yuxin Wen, Neel Jain, John Kirchenbauer, Hamid Kazemi, Prajwal Singhania, Siddharth Singh, Gowthami Somepalli, Jonas Geiping, Abhinav Bhatele, Tom Goldstein

分类: cs.CL

发布日期: 2024-06-14 (更新: 2024-11-02)

备注: 10 pages, 8 figures, and 1 table in the main body. Code available at https://github.com/ahans30/goldfish-loss and checkpoints at https://huggingface.co/collections/tomg-group-umd/goldfish-loss-mitigating-memorization-in-llms-66c175becb6aab07744f7272


💡 一句话要点

提出Goldfish Loss,降低生成式LLM的记忆化风险,保护隐私和版权。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 记忆化 隐私保护 版权保护 Goldfish Loss Llama-2 生成模型

📋 核心要点

  1. 大型语言模型容易记忆训练数据,导致隐私泄露和版权侵犯等问题。
  2. 论文提出Goldfish Loss,通过在训练时随机丢弃部分token,阻止模型记忆完整的token序列。
  3. 实验表明,使用Goldfish Loss训练的Llama-2模型,在降低记忆化的同时,几乎不影响下游任务的性能。

📝 摘要(中文)

大型语言模型存在记忆并重复训练数据的风险,这引发了隐私和版权问题。为了缓解记忆化,我们对下一个token的训练目标进行了一个微妙的修改,称之为Goldfish Loss。在训练过程中,随机采样的token子集被排除在损失计算之外。这些被丢弃的token不会被模型记忆,从而防止了训练集中完整token链的逐字复制。我们进行了广泛的实验,训练了数十亿参数规模的Llama-2模型,包括预训练模型和从头开始训练的模型,结果表明,在对下游基准测试几乎没有影响的情况下,可提取的记忆化显著降低。

🔬 方法详解

问题定义:大型语言模型(LLM)在训练过程中会记忆训练数据,这使得模型有可能在生成文本时重复或泄露敏感信息,从而引发隐私和版权问题。现有的缓解方法通常会影响模型的性能或需要大量的计算资源。因此,需要一种既能有效降低记忆化风险,又能保持模型性能的方法。

核心思路:论文的核心思路是让模型“像金鱼一样”,拥有短暂的记忆。具体来说,通过在训练过程中随机丢弃一部分token,使得模型无法完整地学习到训练数据中的token序列。这样,即使模型记住了部分token,也无法将其完整地拼接起来,从而降低了记忆化风险。

技术框架:该方法的核心在于修改了标准的下一个token预测的训练目标。在每个训练步骤中,首先随机选择一个token子集,然后只基于这个子集计算损失。被排除在损失计算之外的token相当于被“遗忘”了。整体训练流程与标准的LLM训练流程基本一致,只是在损失计算阶段引入了随机丢弃token的机制。

关键创新:该方法的主要创新在于其简单性和有效性。与复杂的正则化方法或数据增强方法相比,Goldfish Loss只需要对损失函数进行一个简单的修改,就可以显著降低记忆化风险。此外,该方法对模型性能的影响很小,甚至在某些情况下可以提高模型的泛化能力。

关键设计:关键的设计在于如何选择要丢弃的token。论文中采用了一种均匀随机采样的方法,即每个token都有相同的概率被丢弃。丢弃率是一个重要的超参数,需要根据具体的任务和数据集进行调整。损失函数仍然是标准的交叉熵损失,但只在未被丢弃的token上计算。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用Goldfish Loss训练的Llama-2模型,在记忆化指标上取得了显著的降低,同时在下游任务(如问答、文本生成等)上的性能几乎没有下降。具体来说,在某些设置下,记忆化降低了50%以上,而下游任务的性能下降不到1%。这表明Goldfish Loss是一种有效的降低记忆化风险,同时保持模型性能的方法。

🎯 应用场景

该研究成果可应用于各种需要保护隐私和版权的场景,例如:安全地训练和部署医疗领域的LLM,防止模型泄露患者的敏感信息;训练和部署法律领域的LLM,防止模型泄露客户的商业机密;训练和部署教育领域的LLM,防止模型泄露学生的个人信息。此外,该方法还可以用于提高LLM的鲁棒性和泛化能力。

📄 摘要(原文)

Large language models can memorize and repeat their training data, causing privacy and copyright risks. To mitigate memorization, we introduce a subtle modification to the next-token training objective that we call the goldfish loss. During training, randomly sampled subsets of tokens are excluded from the loss computation. These dropped tokens are not memorized by the model, which prevents verbatim reproduction of a complete chain of tokens from the training set. We run extensive experiments training billion-scale Llama-2 models, both pre-trained and trained from scratch, and demonstrate significant reductions in extractable memorization with little to no impact on downstream benchmarks.