Get Confused Cautiously: Textual Sequence Memorization Erasure with Selective Entropy Maximization

📄 arXiv: 2408.04983v1 📥 PDF

作者: Zhaohan Zhang, Ziquan Liu, Ioannis Patras

分类: cs.CL

发布日期: 2024-08-09

备注: 15 pages, 7 figures


💡 一句话要点

提出基于选择性熵最大化的文本序列记忆擦除框架,提升LLM的隐私保护能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文本序列记忆 隐私保护 熵最大化 选择性优化

📋 核心要点

  1. 现有文本序列记忆擦除方法在大型语言模型中,难以在擦除记忆的同时保持模型效用。
  2. 提出基于选择性优化的熵最大化框架,通过对比梯度度量选择性更新权重,实现高效擦除。
  3. 实验表明,该方法在擦除记忆文本的同时,能有效保持语言生成和推理能力。

📝 摘要(中文)

大型语言模型(LLM)被发现会逐字记忆并复述训练集中的文本序列,这引发了人们对使用LLM时隐私和版权问题的广泛担忧。这种文本序列记忆(TSM)现象导致了对LLM输出进行监管,以防止其生成某些记忆文本的需求。然而,我们的实证研究表明,现有的TSM擦除方法无法在不严重损害模型效用的情况下忘记大量记忆样本。为了在LLM中TSM擦除的有效性和模型效用之间实现更好的权衡,本文提出了一种基于选择性优化的熵最大化(EMSO)的新框架,其中更新的权重是通过一种新颖的对比梯度度量来选择的,而无需任何额外的模型或数据参与。我们的分析表明,与现有方法相比,使用熵最大化损失进行训练具有更稳定的优化过程,并更好地保持模型效用。对比梯度度量通过同时考虑梯度的大小和方向来定位对TSM擦除影响最大的权重。跨三个模型规模的广泛实验表明,我们的方法擅长处理大规模的遗忘请求,同时保持模型在语言生成和推理方面的能力。

🔬 方法详解

问题定义:大型语言模型(LLM)存在文本序列记忆(TSM)问题,即模型会逐字记忆训练数据中的文本片段,并在生成文本时复述这些片段。这引发了隐私和版权方面的担忧。现有的TSM擦除方法通常会严重损害模型的通用能力,难以在擦除记忆的同时保持模型效用。

核心思路:本文的核心思路是通过选择性地最大化模型输出的熵来擦除记忆。熵最大化鼓励模型对不同的输出具有更高的不确定性,从而降低模型对特定记忆文本的过度依赖。同时,为了避免全局熵最大化对模型效用的损害,本文提出了一种对比梯度度量,用于选择性地更新对TSM擦除影响最大的权重。

技术框架:该方法主要包含两个阶段:1) 熵最大化训练:使用熵最大化损失函数训练模型,鼓励模型对不同的输出具有更高的不确定性。2) 选择性权重更新:使用对比梯度度量来选择对TSM擦除影响最大的权重,并仅更新这些权重。对比梯度度量同时考虑了梯度的大小和方向,从而更准确地定位需要更新的权重。

关键创新:该方法的主要创新在于提出了基于选择性优化的熵最大化框架。与现有方法相比,该方法不需要额外的模型或数据,并且能够更有效地在擦除记忆和保持模型效用之间取得平衡。对比梯度度量是另一个关键创新,它能够更准确地定位对TSM擦除影响最大的权重。

关键设计:熵最大化损失函数采用交叉熵损失的负数形式,鼓励模型对不同的输出具有更高的不确定性。对比梯度度量通过计算目标文本序列和非目标文本序列的梯度差异来选择需要更新的权重。具体的计算公式未知,但其核心思想是选择那些对目标文本序列的生成贡献最大,但对非目标文本序列的生成贡献最小的权重进行更新。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在三个不同规模的模型上都取得了显著的效果。与现有方法相比,该方法能够在擦除更多记忆文本的同时,更好地保持模型的语言生成和推理能力。具体的性能数据未知,但摘要强调了该方法在处理大规模遗忘请求方面的优势。

🎯 应用场景

该研究成果可应用于各种需要保护隐私和版权的场景,例如:安全的大语言模型服务、内容生成平台、以及需要防止模型泄露敏感信息的应用。通过该方法,可以有效防止LLM复述训练数据中的敏感信息,从而提高LLM的安全性。

📄 摘要(原文)

Large Language Models (LLMs) have been found to memorize and recite some of the textual sequences from their training set verbatim, raising broad concerns about privacy and copyright issues when using LLMs. This Textual Sequence Memorization (TSM) phenomenon leads to a high demand to regulate LLM output to prevent it from generating certain memorized text to meet user requirements. However, our empirical study reveals that existing methods for TSM erasure fail to forget massive memorized samples without substantially jeopardizing the model utility. To achieve a better trade-off between the effectiveness of TSM erasure and model utility in LLMs, our paper proposes a new framework based on Entropy Maximization with Selective Optimization (EMSO), where the updated weights are chosen with a novel contrastive gradient metric without any participation of additional model or data. Our analysis shows that training with the entropy maximization loss has a more stable optimization process and better keeps model utility than existing methods. The contrastive gradient metric localizes the most influential weight for TSM erasure by taking both the gradient magnitude and direction into consideration. Extensive experiments across three model scales demonstrate that our method excels in handling large-scale forgetting requests while preserving model ability in language generation and reasoning.