PrivacyScalpel: Enhancing LLM Privacy via Interpretable Feature Intervention with Sparse Autoencoders

📄 arXiv: 2503.11232v1 📥 PDF

作者: Ahmed Frikha, Muhammad Reza Ar Razi, Krishna Kanth Nakka, Ricardo Mendes, Xue Jiang, Xuebing Zhou

分类: cs.LG, cs.CL

发布日期: 2025-03-14


💡 一句话要点

PrivacyScalpel:利用可解释特征干预和稀疏自编码器增强LLM隐私

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM隐私保护 可解释性 特征干预 稀疏自编码器 PII泄露 模型安全 隐私-效用权衡

📋 核心要点

  1. 现有LLM缓解PII泄露的策略,如差分隐私和神经元干预,常牺牲模型效用或效果不佳,面临隐私与性能的权衡难题。
  2. PrivacyScalpel利用LLM可解释性,通过特征探测、稀疏自编码和特征级干预,在不损失性能的前提下抑制PII泄露。
  3. 实验表明,PrivacyScalpel能将邮件泄露率降至0%,同时保持99.4%以上的模型效用,优于神经元级干预方法。

📝 摘要(中文)

大型语言模型(LLM)在自然语言处理方面表现出卓越的能力,但也因记忆和泄露个人身份信息(PII)而带来严重的隐私风险。现有的缓解策略,如差分隐私和神经元级别的干预,通常会降低模型效用或无法有效防止泄露。为了解决这一挑战,我们引入了PrivacyScalpel,这是一个新颖的隐私保护框架,它利用LLM可解释性技术来识别和缓解PII泄露,同时保持性能。PrivacyScalpel包括三个关键步骤:(1)特征探测,识别模型中编码PII丰富表示的层;(2)稀疏自编码,其中k-稀疏自编码器(k-SAE)解耦和隔离隐私敏感特征;(3)特征级别干预,采用有针对性的消融和向量引导来抑制PII泄露。我们在Gemma2-2b和Llama2-7b上进行的实证评估表明,PrivacyScalpel显著降低了电子邮件泄露,从5.15%降至0.0%,同时保持了原始模型99.4%以上的效用。值得注意的是,我们的方法在隐私-效用权衡方面优于神经元级别的干预,表明作用于稀疏的、单语义特征比操纵多语义神经元更有效。除了提高LLM隐私之外,我们的方法还提供了对PII记忆底层机制的见解,有助于更广泛的模型可解释性和安全AI部署领域。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)中存在的个人身份信息(PII)泄露问题。现有方法,如差分隐私和神经元级别的干预,要么降低模型效用,要么无法有效阻止PII泄露。因此,如何在保证模型性能的同时,有效防止LLM泄露隐私信息是一个关键挑战。

核心思路:PrivacyScalpel的核心思路是利用LLM的可解释性,通过识别和干预模型中编码PII的关键特征,从而在不影响模型整体性能的前提下,抑制PII泄露。这种方法的核心在于找到模型中负责记忆和泄露隐私信息的特定部分,并有针对性地进行干预。

技术框架:PrivacyScalpel包含三个主要阶段:(1)特征探测(Feature Probing):识别模型中编码PII丰富表示的层。这通常通过分析不同层对包含PII数据的输入的激活情况来实现。(2)稀疏自编码(Sparse Autoencoding):使用k-稀疏自编码器(k-SAE)来解耦和隔离隐私敏感特征。k-SAE旨在学习数据的稀疏表示,从而将PII相关的特征与其他特征分离开来。(3)特征级别干预(Feature-Level Interventions):采用有针对性的消融(Ablation)和向量引导(Vector Steering)技术来抑制PII泄露。消融是指移除或减少特定特征的激活,而向量引导则是调整特征向量的方向,以减少PII相关信息的编码。

关键创新:PrivacyScalpel的关键创新在于它采用了特征级别的干预,而不是传统的神经元级别干预。通过稀疏自编码器,该方法能够识别和隔离模型中负责编码PII的特定特征,然后有针对性地对这些特征进行干预。与直接操纵神经元相比,这种方法更加精确,能够更好地平衡隐私保护和模型效用。

关键设计:k-SAE的关键参数是稀疏度k,它控制了自编码器学习到的表示的稀疏程度。特征级别干预中,消融和向量引导的强度需要仔细调整,以在抑制PII泄露和保持模型性能之间取得平衡。损失函数的设计也至关重要,需要确保自编码器能够有效地解耦和隔离隐私敏感特征。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,PrivacyScalpel在Gemma2-2b和Llama2-7b模型上,能够将电子邮件泄露率从5.15%显著降低到0.0%,同时保持超过99.4%的原始模型效用。与神经元级别的干预方法相比,PrivacyScalpel在隐私-效用权衡方面表现更优,证明了作用于稀疏、单语义特征的有效性。

🎯 应用场景

PrivacyScalpel可应用于各种需要保护用户隐私的LLM应用场景,例如医疗健康、金融服务和法律咨询等。通过有效抑制PII泄露,该方法能够提升用户对LLM的信任度,促进LLM在敏感数据处理领域的应用。未来,该研究可以扩展到其他类型的隐私泄露问题,并与其他隐私保护技术相结合,构建更强大的隐私保护系统。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated remarkable capabilities in natural language processing but also pose significant privacy risks by memorizing and leaking Personally Identifiable Information (PII). Existing mitigation strategies, such as differential privacy and neuron-level interventions, often degrade model utility or fail to effectively prevent leakage. To address this challenge, we introduce PrivacyScalpel, a novel privacy-preserving framework that leverages LLM interpretability techniques to identify and mitigate PII leakage while maintaining performance. PrivacyScalpel comprises three key steps: (1) Feature Probing, which identifies layers in the model that encode PII-rich representations, (2) Sparse Autoencoding, where a k-Sparse Autoencoder (k-SAE) disentangles and isolates privacy-sensitive features, and (3) Feature-Level Interventions, which employ targeted ablation and vector steering to suppress PII leakage. Our empirical evaluation on Gemma2-2b and Llama2-7b, fine-tuned on the Enron dataset, shows that PrivacyScalpel significantly reduces email leakage from 5.15\% to as low as 0.0\%, while maintaining over 99.4\% of the original model's utility. Notably, our method outperforms neuron-level interventions in privacy-utility trade-offs, demonstrating that acting on sparse, monosemantic features is more effective than manipulating polysemantic neurons. Beyond improving LLM privacy, our approach offers insights into the mechanisms underlying PII memorization, contributing to the broader field of model interpretability and secure AI deployment.