Tracing Privacy Leakage of Language Models to Training Data via Adjusted Influence Functions
作者: Jinxin Liu, Zao Yang
分类: cs.LG, cs.CL, cs.CR
发布日期: 2024-08-20 (更新: 2024-09-05)
💡 一句话要点
提出启发式调整的影响函数(HAIF),以更精确地追踪语言模型中的隐私泄露。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 隐私泄露 影响函数 语言模型 数据追踪 梯度范数
📋 核心要点
- 现有影响函数在追踪语言模型隐私泄露时,对具有大梯度范数的token的影响估计不准确,导致追踪结果偏差。
- 提出启发式调整的影响函数(HAIF),通过降低大梯度范数token的权重,提高追踪最具影响力样本的准确性。
- 在PII-E和PII-CR数据集上,HAIF相比SOTA方法,追踪准确率分别提升了20.96%-73.71%和3.21%-45.93%。
📝 摘要(中文)
大型语言模型(LLM)生成的回复可能包含个人和组织的敏感信息,导致潜在的隐私泄露。本文利用影响函数(IFs)将隐私泄露追溯到训练数据,从而缓解语言模型(LM)的隐私问题。然而,我们注意到,当前的IFs难以准确估计具有大梯度范数的token的影响,可能高估其影响。在追踪最具影响力的样本时,这导致频繁地追溯到具有大梯度范数token的样本,掩盖了实际最具影响力的样本,即使它们的影响被很好地估计。为了解决这个问题,我们提出了启发式调整的IF(HAIF),它降低了具有大梯度范数的token的权重,从而显著提高了追踪最具影响力样本的准确性。为了建立易于获得的隐私泄露追踪的groundtruth,我们构建了两个数据集PII-E和PII-CR,代表了两种不同的场景:一种是模型输出和预训练数据中具有相同文本,另一种是模型利用其推理能力生成与预训练数据不同的文本。与针对各种GPT-2和QWen-1.5模型的最佳SOTA IFs相比,HAIF显著提高了追踪准确性,在PII-E数据集上提高了20.96%到73.71%,在PII-CR数据集上提高了3.21%到45.93%。HAIF在真实世界的预训练数据CLUECorpus2020上也优于SOTA IFs,表现出强大的鲁棒性,不受prompt和response长度的影响。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)中存在的隐私泄露问题,即LLM生成的文本可能包含训练数据中的敏感信息。现有基于影响函数(IFs)的方法在追踪隐私泄露时,对于具有较大梯度范数的token,其影响力的估计存在偏差,容易高估其影响,导致最终追踪到的样本并非真正导致隐私泄露的关键样本。
核心思路:论文的核心思路是通过启发式地调整影响函数,降低具有较大梯度范数的token的权重,从而避免这些token对追踪结果产生过大的影响。这种调整旨在更准确地识别真正对隐私泄露负责的训练样本。
技术框架:论文提出的HAIF方法主要包括以下几个阶段:1. 使用标准的影响函数计算每个训练样本对模型输出的影响;2. 对每个token的梯度范数进行评估;3. 根据梯度范数,对影响函数进行启发式调整,降低大梯度范数token的权重;4. 基于调整后的影响函数,追踪最具影响力的训练样本。
关键创新:论文的关键创新在于提出了启发式调整影响函数(HAIF)的方法,通过降低大梯度范数token的权重,有效解决了现有影响函数在追踪隐私泄露时存在的偏差问题。与现有方法相比,HAIF能够更准确地识别导致隐私泄露的关键训练样本。
关键设计:HAIF的关键设计在于如何启发式地调整影响函数。具体来说,论文提出了一种基于梯度范数的权重调整策略,对梯度范数较大的token赋予较低的权重,从而降低其对最终影响函数值的影响。具体的权重调整函数形式未知,需要在论文中查找。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HAIF在PII-E数据集上相比最佳SOTA方法,追踪准确率提升了20.96%到73.71%,在PII-CR数据集上提升了3.21%到45.93%。此外,HAIF在真实世界的预训练数据CLUECorpus2020上也表现出强大的鲁棒性,不受prompt和response长度的影响,验证了其在实际应用中的有效性。
🎯 应用场景
该研究成果可应用于提升大型语言模型的安全性与隐私保护。通过追踪并移除导致隐私泄露的训练数据,可以有效降低LLM生成包含敏感信息的文本的风险。此外,该方法还可用于评估不同训练数据集的隐私风险,指导数据集的清洗与构建,从而构建更安全可靠的LLM。
📄 摘要(原文)
The responses generated by Large Language Models (LLMs) can include sensitive information from individuals and organizations, leading to potential privacy leakage. This work implements Influence Functions (IFs) to trace privacy leakage back to the training data, thereby mitigating privacy concerns of Language Models (LMs). However, we notice that current IFs struggle to accurately estimate the influence of tokens with large gradient norms, potentially overestimating their influence. When tracing the most influential samples, this leads to frequently tracing back to samples with large gradient norm tokens, overshadowing the actual most influential samples even if their influences are well estimated. To address this issue, we propose Heuristically Adjusted IF (HAIF), which reduces the weight of tokens with large gradient norms, thereby significantly improving the accuracy of tracing the most influential samples. To establish easily obtained groundtruth for tracing privacy leakage, we construct two datasets, PII-E and PII-CR, representing two distinct scenarios: one with identical text in the model outputs and pre-training data, and the other where models leverage their reasoning abilities to generate text divergent from pre-training data. HAIF significantly improves tracing accuracy, enhancing it by 20.96% to 73.71% on the PII-E dataset and 3.21% to 45.93% on the PII-CR dataset, compared to the best SOTA IFs against various GPT-2 and QWen-1.5 models. HAIF also outperforms SOTA IFs on real-world pretraining data CLUECorpus2020, demonstrating strong robustness regardless prompt and response lengths.