Many-Shot Regurgitation (MSR) Prompting
作者: Shashank Sonkar, Richard G. Baraniuk
分类: cs.CL
发布日期: 2024-05-13
💡 一句话要点
提出Many-Shot Regurgitation (MSR) prompting,用于评估大型语言模型的内容复述风险。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 内容复述 成员推理攻击 Prompt工程 信息安全
📋 核心要点
- 大型语言模型存在复述训练数据的风险,现有方法难以有效评估这种风险。
- MSR prompting通过构造多轮对话prompt,诱导模型复述特定文本片段,从而检测模型是否记忆了训练数据。
- 实验表明,LLM更容易复述训练数据中的内容,MSR prompting能够有效区分模型是否接触过特定文本。
📝 摘要(中文)
本文提出了一种新的黑盒成员推理攻击框架,名为Many-Shot Regurgitation (MSR) prompting,用于检测大型语言模型(LLM)中的逐字内容复现现象。MSR prompting将输入文本分割成多个片段,并构建一个包含一系列用户与语言模型之间虚假对话轮次的prompt,以诱导模型逐字复述。该方法应用于多种文本来源,包括维基百科文章和开放教育资源(OER)教科书,这些资源提供高质量的事实内容并随时间持续更新。针对每个来源,构建了LLM在训练期间可能接触到的数据集 ($D_{\rm pre}$) 和包含模型训练截止日期之后发布的文档的数据集 ($D_{\rm post}$)。为了量化逐字匹配的发生,采用了最长公共子串算法,并计算不同长度阈值下的匹配频率。然后,使用Cliff's delta、Kolmogorov-Smirnov (KS) 距离和Kruskal-Wallis H检验等统计指标来确定 $D_{\rm pre}$ 和 $D_{\rm post}$ 之间的逐字匹配分布是否存在显著差异。研究结果表明,$D_{\rm pre}$ 和 $D_{\rm post}$ 之间的逐字匹配分布存在显著差异,当使用LLM(例如GPT模型和LLaMA)提示可能来自其训练数据中的文本时,逐字复现的频率明显更高。例如,在使用GPT-3.5处理维基百科文章时,观察到 $D_{\rm pre}$ 和 $D_{\rm post}$ 分布之间存在显著的效应量(Cliff's delta $= -0.984$)和较大的KS距离($0.875$)。研究结果为LLM在输入文本可能来自其训练数据时更容易复现逐字内容提供了有力的证据。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)可能存在的逐字复述训练数据的问题。现有方法在黑盒场景下难以有效评估LLM是否记忆并复述了其训练数据,尤其是在无法直接访问模型参数或训练数据的情况下。现有的成员推理攻击方法通常关注于区分目标样本是否属于训练集,而忽略了对逐字复述这种更直接的内容泄露形式的检测。
核心思路:论文的核心思路是通过精心设计的prompt,诱导LLM复述特定的文本片段。这种prompt被称为Many-Shot Regurgitation (MSR) prompting,它模拟了用户与LLM之间的多轮对话,通过逐步引导的方式,促使LLM在回答中包含目标文本的逐字内容。这样设计的目的是为了绕过LLM可能存在的防御机制,并提高复述的成功率。
技术框架:MSR prompting框架主要包含以下几个步骤:1) 选择目标文本来源,例如维基百科文章或开放教育资源;2) 将目标文本分割成多个片段;3) 构建MSR prompt,该prompt包含一系列用户与LLM之间的虚假对话轮次,旨在引导LLM复述目标文本片段;4) 使用MSR prompt对LLM进行查询,并记录LLM的输出;5) 使用最长公共子串(Longest Common Substring)算法,在LLM的输出中搜索与目标文本片段的逐字匹配;6) 统计不同长度阈值下的逐字匹配频率;7) 使用统计指标(如Cliff's delta、Kolmogorov-Smirnov (KS) 距离和Kruskal-Wallis H检验)比较不同数据集($D_{\rm pre}$ 和 $D_{\rm post}$)之间的逐字匹配分布。
关键创新:MSR prompting的关键创新在于其prompt的设计方式。传统的prompting方法通常只包含一个问题或指令,而MSR prompting则通过模拟多轮对话,逐步引导LLM复述目标文本。这种多轮对话的方式可以有效地绕过LLM可能存在的防御机制,并提高复述的成功率。此外,MSR prompting还采用了统计分析的方法,对不同数据集之间的逐字匹配分布进行比较,从而更准确地评估LLM的记忆和复述能力。
关键设计:MSR prompting的关键设计在于prompt中对话轮次的数量和内容。对话轮次的数量需要根据目标文本的长度和复杂程度进行调整。对话的内容需要精心设计,以逐步引导LLM复述目标文本,同时避免过于明显的提示,以免触发LLM的防御机制。此外,论文还使用了最长公共子串算法来检测逐字匹配,并使用Cliff's delta、Kolmogorov-Smirnov (KS) 距离和Kruskal-Wallis H检验等统计指标来比较不同数据集之间的逐字匹配分布。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用GPT-3.5处理维基百科文章时,在模型训练前后的数据集上,逐字匹配分布存在显著差异,效应量Cliff's delta达到-0.984,KS距离为0.875。这表明LLM更容易复述训练数据中的内容,MSR prompting能够有效检测这种现象。
🎯 应用场景
该研究成果可应用于评估和缓解大型语言模型的内容复述风险,帮助开发者识别和修复模型中存在的潜在安全漏洞。同时,该方法可以用于评估不同模型的记忆能力,为模型选择和部署提供参考。此外,该研究对于保护知识产权和防止未经授权的内容传播具有重要意义。
📄 摘要(原文)
We introduce Many-Shot Regurgitation (MSR) prompting, a new black-box membership inference attack framework for examining verbatim content reproduction in large language models (LLMs). MSR prompting involves dividing the input text into multiple segments and creating a single prompt that includes a series of faux conversation rounds between a user and a language model to elicit verbatim regurgitation. We apply MSR prompting to diverse text sources, including Wikipedia articles and open educational resources (OER) textbooks, which provide high-quality, factual content and are continuously updated over time. For each source, we curate two dataset types: one that LLMs were likely exposed to during training ($D_{\rm pre}$) and another consisting of documents published after the models' training cutoff dates ($D_{\rm post}$). To quantify the occurrence of verbatim matches, we employ the Longest Common Substring algorithm and count the frequency of matches at different length thresholds. We then use statistical measures such as Cliff's delta, Kolmogorov-Smirnov (KS) distance, and Kruskal-Wallis H test to determine whether the distribution of verbatim matches differs significantly between $D_{\rm pre}$ and $D_{\rm post}$. Our findings reveal a striking difference in the distribution of verbatim matches between $D_{\rm pre}$ and $D_{\rm post}$, with the frequency of verbatim reproduction being significantly higher when LLMs (e.g. GPT models and LLaMAs) are prompted with text from datasets they were likely trained on. For instance, when using GPT-3.5 on Wikipedia articles, we observe a substantial effect size (Cliff's delta $= -0.984$) and a large KS distance ($0.875$) between the distributions of $D_{\rm pre}$ and $D_{\rm post}$. Our results provide compelling evidence that LLMs are more prone to reproducing verbatim content when the input text is likely sourced from their training data.