The Canary's Echo: Auditing Privacy Risks of LLM-Generated Synthetic Text
作者: Matthieu Meeus, Lukas Wutschitz, Santiago Zanella-Béguelin, Shruti Tople, Reza Shokri
分类: cs.CL, cs.CR, cs.LG
发布日期: 2025-02-19 (更新: 2025-06-06)
备注: 42nd International Conference on Machine Learning (ICML 2025)
💡 一句话要点
针对LLM生成合成文本的隐私风险,提出新型数据驱动的成员推理攻击方法。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 合成数据 隐私风险 成员推理攻击 数据安全
📋 核心要点
- 现有基于模型的成员推理攻击(MIA)方法在合成数据泄露场景下效果不佳,因为其设计的canaries与实际生成的数据分布存在差异。
- 本文提出一种新型数据驱动的MIA方法,通过设计具有特定前缀和高困惑度后缀的canaries,使其在合成数据中留下可检测的痕迹。
- 实验结果表明,该方法能够有效提升MIA的攻击效果,更好地评估LLM生成合成数据发布的隐私风险。
📝 摘要(中文)
本文研究了大型语言模型(LLM)生成的合成数据可能泄露训练样本信息的程度。研究表明,忽视合成数据生成流程中的信息流动细节会导致对隐私的错误认知。本文假设攻击者可以访问LLM生成的合成数据,并设计了成员推理攻击(MIA),目标是用于微调LLM的训练数据。实验结果表明,MIA的显著性能表明合成数据确实泄露了关于训练数据的信息。此外,研究发现,为基于模型的MIA设计的canaries在仅发布合成数据时效果不佳。为了解决这个问题,本文利用自回归模型的机制,设计了一种带有in-distribution前缀和高困惑度后缀的canaries,使其在合成数据中留下可检测的痕迹,从而增强了数据驱动的MIA的能力,并能更好地评估LLM生成合成数据发布的隐私风险。
🔬 方法详解
问题定义:论文旨在解决LLM生成的合成数据泄露训练数据信息的隐私问题。现有的基于模型的成员推理攻击方法,如使用canaries,在合成数据泄露场景下效果不佳,因为这些canaries通常是out-of-distribution的,对模型生成有用、in-distribution的合成数据影响有限。
核心思路:论文的核心思路是设计一种新型的canaries,使其既能融入合成数据的分布,又能留下可检测的痕迹。具体来说,canaries包含一个in-distribution的前缀和一个高困惑度的后缀。前缀保证canary能够被模型生成,后缀则使其在合成数据中具有可区分性。
技术框架:整体流程包括:1) 使用训练数据微调LLM;2) 设计包含特定前缀和高困惑度后缀的canaries;3) 使用微调后的LLM生成合成数据,其中包含canaries的痕迹;4) 利用数据驱动的MIA,检测合成数据中canaries的痕迹,从而推断训练数据的信息。
关键创新:论文的关键创新在于canaries的设计。与传统的out-of-distribution canaries不同,本文提出的canaries具有in-distribution的前缀和高困惑度的后缀,使其既能被模型生成,又能留下可检测的痕迹。这种设计使得数据驱动的MIA能够更有效地检测合成数据中的隐私泄露。
关键设计:canaries的前缀选择需要保证与合成数据的分布一致,可以使用训练数据中的常见短语或句子。后缀的选择需要保证具有较高的困惑度,可以使用随机生成的字符或罕见词汇。MIA可以使用各种机器学习模型,如分类器或回归器,来检测合成数据中canaries的痕迹。具体的参数设置和模型选择需要根据具体的数据集和LLM进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,本文提出的数据驱动的MIA方法能够有效提升对LLM生成合成数据的隐私攻击效果。与传统的基于模型的MIA方法相比,该方法能够更准确地检测合成数据中的隐私泄露,从而更好地评估LLM的隐私风险。
🎯 应用场景
该研究成果可应用于评估和改进LLM生成合成数据的隐私保护机制。例如,可以利用该方法评估不同隐私保护技术(如差分隐私)对合成数据隐私泄露的抑制效果,从而指导LLM的安全应用,尤其是在医疗、金融等敏感数据领域。
📄 摘要(原文)
How much information about training samples can be leaked through synthetic data generated by Large Language Models (LLMs)? Overlooking the subtleties of information flow in synthetic data generation pipelines can lead to a false sense of privacy. In this paper, we assume an adversary has access to some synthetic data generated by a LLM. We design membership inference attacks (MIAs) that target the training data used to fine-tune the LLM that is then used to synthesize data. The significant performance of our MIA shows that synthetic data leak information about the training data. Further, we find that canaries crafted for model-based MIAs are sub-optimal for privacy auditing when only synthetic data is released. Such out-of-distribution canaries have limited influence on the model's output when prompted to generate useful, in-distribution synthetic data, which drastically reduces their effectiveness. To tackle this problem, we leverage the mechanics of auto-regressive models to design canaries with an in-distribution prefix and a high-perplexity suffix that leave detectable traces in synthetic data. This enhances the power of data-based MIAs and provides a better assessment of the privacy risks of releasing synthetic data generated by LLMs.