UnPII: Unlearning Personally Identifiable Information with Quantifiable Exposure Risk
作者: Intae Jeon, Yujeong Kwon, Hyungjoon Koo
分类: cs.LG, cs.CR
发布日期: 2026-01-05
备注: 11 pages, 7 Tables, 6 Figures To appear in the Software Engineering in Practice (SEIP) track of ICSE
💡 一句话要点
UnPII:提出一种可量化风险的PII非学习方法,解决LLM中隐私数据删除问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器非学习 个人身份信息 隐私保护 风险评估 大型语言模型
📋 核心要点
- 大型语言模型处理PII数据时面临隐私泄露风险,现有非学习方法未能区分不同PII属性的风险差异。
- UnPII提出基于PII风险指数(PRI)的非学习方法,优先遗忘高风险PII,并与现有非学习算法集成。
- 实验表明,UnPII在准确性、效用和泛化性方面均有提升,同时微调开销可控,验证了其有效性。
📝 摘要(中文)
大型语言模型在金融、医疗保健和政府等关键领域的日益普及,引发了对训练期间处理敏感个人身份信息(PII)的隐私担忧。为了应对这些问题,欧盟的《通用数据保护条例》(GDPR)等法规要求应要求删除PII,这突显了对可靠且经济高效的数据删除解决方案的需求。机器非学习已成为选择性遗忘数据点的一个有希望的方向。然而,现有的非学习技术通常应用统一的遗忘策略,既不考虑不同PII属性带来的不同隐私风险,也不反映相关的业务风险。本文提出UnPII,这是一种以PII为中心的非学习方法,它根据单个或组合PII属性的风险来确定遗忘的优先级。为此,我们引入了PII风险指数(PRI),这是一个综合指标,它结合了风险因素的多个维度:可识别性、敏感性、可用性、可链接性、持久性、可暴露性和合规性。PRI能够对与PII暴露相关的隐私风险进行细致的评估,并且可以进行定制以符合组织的隐私策略。为了支持实际评估,我们系统地构建了一个合成PII数据集(例如,1,700个PII实例),该数据集模拟了真实的暴露场景。UnPII与已建立的非学习算法(如梯度上升、负偏好优化和直接偏好优化)无缝集成,而无需修改其基本原理。我们的实验结果表明,UnPII分别实现了高达11.8%的准确性、高达6.3%的效用和高达12.4%的泛化性的提高,同时在非学习期间平均产生了27.5%的适度微调开销。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)训练过程中,由于包含个人身份信息(PII)而引发的隐私泄露问题。现有机器非学习方法通常采用统一的遗忘策略,无法区分不同PII属性的隐私风险,导致非学习效率低下,且可能影响模型性能。此外,现有方法缺乏对PII风险的量化评估,难以满足法规要求和组织隐私策略。
核心思路:UnPII的核心思路是根据PII的风险等级进行差异化非学习。通过引入PII风险指数(PRI),量化PII属性的隐私风险,并以此为依据,指导非学习过程,优先遗忘高风险的PII。这种方法旨在在保护隐私的同时,尽可能保留模型的效用和泛化能力。
技术框架:UnPII的技术框架主要包含两个核心部分:PII风险评估和基于风险的非学习。首先,通过PII风险指数(PRI)对PII进行风险评估,PRI综合考虑了可识别性、敏感性、可用性、可链接性、持久性、可暴露性和合规性等多个维度。然后,将PRI作为权重,指导现有的非学习算法(如梯度上升、负偏好优化和直接偏好优化)进行非学习,实现对高风险PII的优先遗忘。UnPII可以无缝集成到现有的非学习框架中,无需修改底层算法。
关键创新:UnPII最重要的技术创新点在于提出了PII风险指数(PRI),这是一个综合性的风险评估指标,能够量化不同PII属性的隐私风险。与现有方法相比,PRI能够更准确地反映PII的隐私风险,并为差异化非学习提供依据。此外,UnPII通过将PRI与现有非学习算法集成,实现了对高风险PII的优先遗忘,提高了非学习效率和模型性能。
关键设计:PII风险指数(PRI)是UnPII的关键设计。PRI的计算公式如下(论文中未明确给出,此处为推测):PRI = w1 * Identifiability + w2 * Sensitivity + w3 * Usability + w4 * Linkability + w5 * Permanency + w6 * Exposability + w7 * Compliancy,其中wi是各个风险因素的权重,可以根据组织的隐私策略进行调整。此外,UnPII在实验中构建了一个包含1700个PII实例的合成数据集,用于模拟真实的PII暴露场景,并评估UnPII的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,UnPII在准确性方面提升高达11.8%,效用提升高达6.3%,泛化性提升高达12.4%。与现有非学习方法相比,UnPII在保护隐私的同时,能够更好地保留模型的性能。此外,UnPII的微调开销平均为27.5%,表明其具有良好的效率。
🎯 应用场景
UnPII可应用于金融、医疗、政务等涉及敏感数据处理的领域,帮助企业和机构满足GDPR等法规要求,降低数据泄露风险。通过量化PII风险并进行差异化非学习,UnPII能够在保护用户隐私的同时,最大限度地保留模型的效用,具有重要的实际应用价值和广阔的应用前景。
📄 摘要(原文)
The ever-increasing adoption of Large Language Models in critical sectors like finance, healthcare, and government raises privacy concerns regarding the handling of sensitive Personally Identifiable Information (PII) during training. In response, regulations such as European Union's General Data Protection Regulation (GDPR) mandate the deletion of PII upon requests, underscoring the need for reliable and cost-effective data removal solutions. Machine unlearning has emerged as a promising direction for selectively forgetting data points. However, existing unlearning techniques typically apply a uniform forgetting strategy that neither accounts for the varying privacy risks posed by different PII attributes nor reflects associated business risks. In this work, we propose UnPII, the first PII-centric unlearning approach that prioritizes forgetting based on the risk of individual or combined PII attributes. To this end, we introduce the PII risk index (PRI), a composite metric that incorporates multiple dimensions of risk factors: identifiability, sensitivity, usability, linkability, permanency, exposability, and compliancy. The PRI enables a nuanced evaluation of privacy risks associated with PII exposures and can be tailored to align with organizational privacy policies. To support realistic assessment, we systematically construct a synthetic PII dataset (e.g., 1,700 PII instances) that simulates realistic exposure scenarios. UnPII seamlessly integrates with established unlearning algorithms, such as Gradient Ascent, Negative Preference Optimization, and Direct Preference Optimization, without modifying their underlying principles. Our experimental results demonstrate that UnPII achieves the improvements of accuracy up to 11.8%, utility up to 6.3%, and generalizability up to 12.4%, respectively, while incurring a modest fine-tuning overhead of 27.5% on average during unlearning.