Extracting Memorized Training Data via Decomposition

📄 arXiv: 2409.12367v2 📥 PDF

作者: Ellen Su, Anu Vellore, Amy Chang, Raffaele Mura, Blaine Nelson, Paul Kassianik, Amin Karbasi

分类: cs.LG, cs.AI, cs.CR

发布日期: 2024-09-18 (更新: 2024-10-01)


💡 一句话要点

提出一种基于分解查询的方法,从大型语言模型中提取记忆的训练数据,揭示潜在安全风险。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数据提取 安全漏洞 隐私风险 指令分解 训练数据 信息安全

📋 核心要点

  1. 大型语言模型存在泄露训练数据的风险,现有对齐方法无法完全阻止。
  2. 论文提出一种基于查询分解的方法,逐步提取LLM记忆的训练数据片段。
  3. 实验表明该方法能从LLM中提取《纽约时报》文章的逐字句子,揭示潜在安全漏洞。

📝 摘要(中文)

大型语言模型(LLM)的广泛应用给开发者、组织和终端用户带来了新的信息安全挑战。LLM在大量数据上进行训练,其泄露源训练数据集确切内容的能力构成了安全风险。尽管当前的对齐程序限制了常见的危险行为,但它们并不能完全阻止LLM泄露数据。先前的工作表明,LLM可能被诱骗通过使用分布外查询或对抗性技术来泄露训练数据。在本文中,我们展示了一种简单的、基于查询的分解方法,从两个前沿LLM中提取新闻文章。我们使用指令分解技术来逐步提取训练数据的片段。在3723篇《纽约时报》的文章中,我们从73篇文章中提取了至少一个逐字句子,并从6篇文章中提取了超过20%的逐字句子。我们的分析表明,该方法成功地诱导LLM生成新闻文章的可靠复制文本,这意味着它们可能源自源训练数据集。这种方法简单、通用,并且不微调或更改生产模型。如果在规模上可复制,这种训练数据提取方法可能会暴露新的LLM安全漏洞,包括隐私风险和未经授权的数据泄露。这些影响需要从模型开发到最终使用的仔细考虑。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)可能泄露其训练数据的问题。现有的防御机制,如对齐程序,并不能完全阻止LLM泄露敏感信息。攻击者可以通过精心设计的查询(例如,分布外查询或对抗性技术)诱导LLM泄露训练数据,从而造成隐私泄露和安全风险。

核心思路:论文的核心思路是通过指令分解技术,将复杂的查询分解为一系列更小的、更易于LLM处理的子查询。通过逐步提取训练数据的片段,最终重构出完整的训练样本。这种方法利用了LLM在生成文本时倾向于回忆和重现训练数据的特性。

技术框架:该方法主要包含以下几个阶段:1) 选择目标数据集(例如,《纽约时报》文章);2) 设计分解查询策略,将目标文本分解为一系列子查询;3) 向LLM发送子查询,并收集LLM生成的文本片段;4) 将收集到的文本片段组合起来,尝试重构原始文本;5) 评估重构文本与原始文本的相似度,判断是否成功提取了训练数据。

关键创新:该方法的关键创新在于其简单性和通用性。它不需要对LLM进行微调或修改,而是通过巧妙设计的查询来诱导LLM泄露训练数据。与以往的攻击方法相比,该方法更易于实现和部署,并且可以应用于各种不同的LLM。

关键设计:论文中没有明确提及具体的参数设置或损失函数。关键在于设计有效的分解查询策略,例如,可以根据文章的段落、句子或关键词来分解查询。此外,还需要设计合适的评估指标来衡量重构文本与原始文本的相似度,例如,可以使用BLEU score或ROUGE score。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够成功地从两个前沿LLM中提取《纽约时报》的文章。在3723篇文章中,至少从73篇文章中提取了一个逐字句子,并且从6篇文章中提取了超过20%的逐字句子。这些结果表明,该方法具有较高的有效性,能够有效地诱导LLM泄露训练数据。

🎯 应用场景

该研究成果可应用于评估大型语言模型的安全性,帮助开发者识别和修复潜在的漏洞,防止敏感数据泄露。同时,该方法也为研究LLM的记忆机制提供了新的视角,有助于理解LLM如何存储和检索训练数据。未来,可以进一步研究更有效的防御方法,以提高LLM的安全性。

📄 摘要(原文)

The widespread use of Large Language Models (LLMs) in society creates new information security challenges for developers, organizations, and end-users alike. LLMs are trained on large volumes of data, and their susceptibility to reveal the exact contents of the source training datasets poses security and safety risks. Although current alignment procedures restrict common risky behaviors, they do not completely prevent LLMs from leaking data. Prior work demonstrated that LLMs may be tricked into divulging training data by using out-of-distribution queries or adversarial techniques. In this paper, we demonstrate a simple, query-based decompositional method to extract news articles from two frontier LLMs. We use instruction decomposition techniques to incrementally extract fragments of training data. Out of 3723 New York Times articles, we extract at least one verbatim sentence from 73 articles, and over 20% of verbatim sentences from 6 articles. Our analysis demonstrates that this method successfully induces the LLM to generate texts that are reliable reproductions of news articles, meaning that they likely originate from the source training dataset. This method is simple, generalizable, and does not fine-tune or change the production model. If replicable at scale, this training data extraction methodology could expose new LLM security and safety vulnerabilities, including privacy risks and unauthorized data leaks. These implications require careful consideration from model development to its end-use.