Unlocking Memorization in Large Language Models with Dynamic Soft Prompting

📄 arXiv: 2409.13853v1 📥 PDF

作者: Zhepeng Wang, Runxue Bao, Yawen Wu, Jackson Taylor, Cao Xiao, Feng Zheng, Weiwen Jiang, Shangqian Gao, Yanfu Zhang

分类: cs.CL, cs.AI, cs.CR, cs.LG

发布日期: 2024-09-20


💡 一句话要点

提出动态软提示方法,提升大型语言模型记忆内容提取的准确性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 记忆能力 软提示 动态提示 隐私安全

📋 核心要点

  1. 现有方法在评估LLM记忆能力时,采用固定软提示或仅使用前缀,无法有效应对输入变化。
  2. 提出动态软提示方法,训练Transformer生成器,根据输入前缀自适应生成软提示。
  3. 实验表明,该方法在文本和代码生成任务中,显著提升了可发现的记忆率,优于现有技术。

📝 摘要(中文)

预训练大型语言模型(LLMs)彻底改变了自然语言处理(NLP)任务,如摘要、问答和翻译。然而,LLMs由于其记忆训练数据的倾向,带来了严重的安全风险,可能导致潜在的隐私泄露和版权侵犯。准确测量这种记忆能力对于评估和减轻这些潜在风险至关重要。然而,以往表征记忆能力的尝试受到限制,要么仅使用前缀,要么将恒定的软提示添加到前缀中,无法对输入的变化做出反应。为了解决这个挑战,我们提出了一种新颖的方法,使用动态的、依赖于前缀的软提示来估计LLM的记忆能力。我们的方法包括训练一个基于Transformer的生成器来产生适应输入变化的软提示,从而更准确地提取记忆的数据。我们的方法不仅解决了先前方法的局限性,而且在各种实验环境中表现出优于最先进技术的性能。特别地,在文本生成任务和代码生成任务中,我们的方法在可发现的记忆率方面分别实现了相对于vanilla基线的112.75%和32.26%的最大相对改进。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)记忆能力评估不准确的问题。现有方法,如仅使用前缀或添加固定软提示,无法有效捕捉LLM对不同输入的记忆行为,导致记忆内容提取不完整,风险评估不准确。这些方法无法根据输入变化动态调整,限制了其有效性。

核心思路:论文的核心思路是利用动态软提示,即根据输入前缀生成自适应的软提示,从而更准确地引导LLM暴露其记忆内容。通过训练一个独立的生成器来生成这些软提示,可以使提示更具针对性,从而提高记忆内容提取的效率和准确性。

技术框架:整体框架包含两个主要部分:一是LLM本身,作为记忆内容的载体;二是基于Transformer的软提示生成器,负责根据输入前缀生成动态软提示。流程如下:首先,给定一个输入前缀,软提示生成器生成相应的软提示;然后,将软提示添加到输入前缀中,输入到LLM中;最后,分析LLM的输出,判断其是否包含记忆内容。

关键创新:最重要的技术创新点在于动态软提示的生成方式。与传统的固定软提示不同,该方法通过训练一个独立的生成器,使软提示能够根据输入前缀的变化而自适应调整。这种动态性使得软提示能够更有效地引导LLM暴露其记忆内容,从而提高记忆内容提取的准确性。

关键设计:软提示生成器采用Transformer架构,输入为输入前缀,输出为软提示。训练目标是最大化LLM输出中记忆内容出现的概率。损失函数可以设计为交叉熵损失,用于衡量LLM输出与目标记忆内容之间的差异。关键参数包括Transformer的层数、隐藏层大小、注意力头数等。此外,还需要设计合适的训练数据,包含大量的输入前缀和对应的记忆内容。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在文本生成和代码生成任务中,显著提升了可发现的记忆率。在文本生成任务中,相对于vanilla基线,该方法实现了112.75%的最大相对改进;在代码生成任务中,实现了32.26%的最大相对改进。这些结果表明,动态软提示方法能够更有效地提取LLM的记忆内容。

🎯 应用场景

该研究成果可应用于评估和减轻大型语言模型的安全风险,例如隐私泄露和版权侵犯。通过更准确地测量LLM的记忆能力,可以开发更有效的防御机制,保护用户隐私和知识产权。此外,该方法还可以用于分析LLM的学习行为,了解其记忆机制,从而改进LLM的训练方法。

📄 摘要(原文)

Pretrained large language models (LLMs) have revolutionized natural language processing (NLP) tasks such as summarization, question answering, and translation. However, LLMs pose significant security risks due to their tendency to memorize training data, leading to potential privacy breaches and copyright infringement. Accurate measurement of this memorization is essential to evaluate and mitigate these potential risks. However, previous attempts to characterize memorization are constrained by either using prefixes only or by prepending a constant soft prompt to the prefixes, which cannot react to changes in input. To address this challenge, we propose a novel method for estimating LLM memorization using dynamic, prefix-dependent soft prompts. Our approach involves training a transformer-based generator to produce soft prompts that adapt to changes in input, thereby enabling more accurate extraction of memorized data. Our method not only addresses the limitations of previous methods but also demonstrates superior performance in diverse experimental settings compared to state-of-the-art techniques. In particular, our method can achieve the maximum relative improvement of 112.75% and 32.26% over the vanilla baseline in terms of discoverable memorization rate for the text generation task and code generation task respectively.