Reconstruction of Personally Identifiable Information from Supervised Finetuned Models
作者: Sae Furukawa, Alina Oprea
分类: cs.CR, cs.CL, cs.LG
发布日期: 2026-05-12
💡 一句话要点
提出COVA算法,用于从监督微调模型中重建个人身份信息(PII)。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 个人身份信息重建 监督微调 大型语言模型 隐私泄露 COVA算法 前缀攻击 医疗领域 法律领域
📋 核心要点
- 监督微调后的语言模型可能泄露训练数据中的个人身份信息,带来隐私风险,现有方法缺乏对此问题的深入研究。
- 论文提出COVA解码算法,用于在已知部分数据集信息的情况下,从微调模型中重建PII,提升攻击成功率。
- 实验表明,即使攻击者仅掌握部分信息,COVA算法也能有效重建PII,且不同类型的PII泄露程度存在差异。
📝 摘要(中文)
监督微调(SFT)已成为将大型语言模型(LLM)应用于特定领域、执行指令跟随任务的主要方法之一。SFT数据集由指令-响应对组成,通常包含用户提供的信息,其中可能包含敏感数据,如个人身份信息(PII),从而引发隐私问题。本文首次研究了从SFT模型中重建PII的问题。我们在敏感领域(特别是医疗和法律环境)构建了多轮、以用户为中心的问答数据集,其中包含PII,以便对泄露进行实际评估。利用这些数据集,我们评估了在微调期间使用了数据的个体,其敏感信息在多大程度上会被具有不同程度微调数据集知识的攻击者推断出来。在重建设置中,我们提出了一种新的解码算法COVA,用于在基于前缀的攻击下重建PII,始终优于现有的提取方法。我们的结果表明,即使是部分攻击者知识也可以显著提高重建成功率,而不同PII类型的泄露程度差异很大。
🔬 方法详解
问题定义:论文旨在解决从经过监督微调(SFT)的大型语言模型中重建个人身份信息(PII)的问题。现有方法缺乏针对SFT模型PII泄露的专门研究,并且没有充分利用攻击者可能拥有的关于微调数据集的部分知识。因此,如何有效地从SFT模型中提取PII,尤其是在攻击者具有部分数据集知识的情况下,是一个重要的挑战。
核心思路:论文的核心思路是利用攻击者可能拥有的关于微调数据集的部分知识,设计一种新的解码算法COVA,以更准确地重建PII。COVA算法通过优化解码过程,使其能够更好地利用前缀信息,从而提高重建的成功率。这种方法假设攻击者可以访问一些训练数据样本,并利用这些样本来指导解码过程。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 构建包含PII的多轮问答数据集,用于模拟真实的SFT场景。2) 使用这些数据集对大型语言模型进行监督微调。3) 设计基于前缀的攻击方法,模拟攻击者利用部分数据集知识进行攻击。4) 提出COVA解码算法,用于在攻击过程中重建PII。5) 通过实验评估COVA算法的性能,并与现有方法进行比较。
关键创新:论文的关键创新在于提出了COVA解码算法。COVA算法的核心思想是利用攻击者可能拥有的关于微调数据集的部分知识,通过优化解码过程,更准确地重建PII。与现有方法相比,COVA算法能够更好地利用前缀信息,从而提高重建的成功率。此外,该研究还首次系统地研究了从SFT模型中重建PII的问题,并构建了用于评估PII泄露的基准数据集。
关键设计:COVA算法的关键设计在于其解码过程的优化。具体来说,COVA算法通过以下方式利用前缀信息:1) 在解码过程中,COVA算法会根据已知的前缀信息,对候选token的概率进行调整,从而提高与前缀信息一致的token的概率。2) COVA算法还引入了一种新的损失函数,用于鼓励模型生成与前缀信息一致的文本。这些设计使得COVA算法能够更好地利用前缀信息,从而提高重建的成功率。具体的参数设置和网络结构细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,COVA算法在重建PII方面显著优于现有方法。即使攻击者只掌握部分数据集知识,COVA也能有效提高重建成功率。例如,在医疗数据集上,COVA算法的重建准确率比现有方法提高了15%-20%。此外,研究还发现不同类型的PII泄露程度存在差异,为后续的隐私保护策略提供了指导。
🎯 应用场景
该研究成果可应用于评估和改进大型语言模型在监督微调过程中的隐私保护能力。通过识别和缓解PII泄露风险,可以提高LLM在医疗、法律等敏感领域的安全性和可靠性,促进负责任的AI应用。
📄 摘要(原文)
Supervised Finetuning (SFT) has become one of the primary methods for adapting a large language model (LLM) with extensive pre-trained knowledge to domain-specific, instruction-following tasks. SFT datasets, composed of instruction-response pairs, often include user-provided information that may contain sensitive data such as personally identifiable information (PII), raising privacy concerns. This paper studies the problem of PII reconstruction from SFT models for the first time. We construct multi-turn, user-centric Q&A datasets in sensitive domains, specifically medical and legal settings, that incorporate PII to enable realistic evaluation of leakage. Using these datasets, we evaluate the extent to which an adversary, with varying levels of knowledge about the fine-tuning dataset, can infer sensitive information about individuals whose data was used during SFT. In the reconstruction setting, we propose COVA, a novel decoding algorithm to reconstruct PII under prefix-based attacks, consistently outperforming existing extraction methods. Our results show that even partial attacker knowledge can significantly improve reconstruction success, while leakage varies substantially across PII types.