AlignDP: Hybrid Differential Privacy with Rarity-Aware Protection for LLMs

📄 arXiv: 2512.17251v1 📥 PDF

作者: Madhava Gaikwad

分类: cs.CR, cs.AI, cs.LG

发布日期: 2025-12-19

备注: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: LOCK-LLM Work-shop, NeurIPS 2025


💡 一句话要点

AlignDP:针对LLM的混合差分隐私方法,通过稀有感知保护防止知识泄露。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 差分隐私 大型语言模型 隐私保护 PAC学习 RAPPOR 知识泄露 数据安全

📋 核心要点

  1. 现有LLM防御方法(如水印)在泄露后才生效,无法从源头阻止知识转移。
  2. AlignDP通过区分稀有和非稀有字段,分别应用PAC不可区分性和RAPPOR进行保护,实现混合差分隐私。
  3. 实验验证了AlignDP的可行性,能够有效隐藏稀有类别,并以较小误差恢复频繁类别。

📝 摘要(中文)

大型语言模型面临着提取、蒸馏和未经授权的微调等风险。现有的防御措施通常采用水印或监控,但这些方法在泄露发生后才起作用。本文设计了一种混合隐私锁AlignDP,旨在数据接口处阻止知识转移。核心思想是将数据字段分为稀有字段和非稀有字段。稀有字段通过PAC不可区分性进行保护,从而实现有效的零epsilon局部差分隐私(DP)。非稀有字段则使用RAPPOR进行私有化处理,从而在局部DP下提供无偏的频率估计。全局聚合器负责执行组合和预算控制。这种双层设计隐藏了稀有事件,并为频繁事件添加了可控噪声。论文证明了PAC扩展到全局聚合的局限性,给出了RAPPOR估计的界限,并分析了效用权衡。玩具仿真实验证实了该方法的可行性:稀有类别保持隐藏,频繁类别以较小的误差恢复。

🔬 方法详解

问题定义:大型语言模型容易遭受知识泄露攻击,例如数据提取、模型蒸馏和未经授权的微调。现有的防御机制,如水印和监控,通常在泄露发生后才起作用,无法有效防止知识从源头泄露。因此,如何设计一种在数据接口处阻止知识转移的隐私保护机制是一个关键问题。

核心思路:AlignDP的核心思路是采用混合差分隐私策略,区分数据中的稀有字段和非稀有字段,并对它们应用不同的隐私保护机制。对于稀有字段,采用PAC不可区分性,提供更强的隐私保护,近似于零epsilon局部差分隐私。对于非稀有字段,采用RAPPOR进行私有化处理,在满足局部差分隐私的同时,提供无偏的频率估计。

技术框架:AlignDP的整体框架包含以下几个主要模块:1) 数据预处理:将数据字段分为稀有字段和非稀有字段。2) 稀有字段保护:对稀有字段应用PAC不可区分性,隐藏稀有事件。3) 非稀有字段保护:对非稀有字段应用RAPPOR进行私有化处理,生成带噪声的频率估计。4) 全局聚合:使用全局聚合器对来自不同用户的私有化数据进行聚合,并执行组合和预算控制,确保整体隐私性。

关键创新:AlignDP的关键创新在于其混合差分隐私的设计,它能够根据数据字段的稀有程度,自适应地应用不同的隐私保护机制。这种设计在隐私保护强度和数据效用之间取得了更好的平衡。与传统的单一差分隐私方法相比,AlignDP能够更好地保护稀有事件,同时保持对频繁事件的准确估计。

关键设计:AlignDP的关键设计包括:1) 稀有字段的PAC不可区分性阈值设置,需要根据具体数据集和隐私需求进行调整。2) RAPPOR的参数设置,包括哈希函数的数量和扰动概率,需要仔细选择以平衡隐私保护强度和频率估计的准确性。3) 全局聚合器的设计,需要考虑如何有效地执行组合和预算控制,以确保整体隐私性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过玩具仿真实验验证了AlignDP的可行性。实验结果表明,AlignDP能够有效地隐藏稀有类别,同时以较小的误差恢复频繁类别。这表明AlignDP在隐私保护和数据效用之间取得了较好的平衡,能够满足实际应用的需求。具体的性能数据和对比基线在论文中进行了详细的展示。

🎯 应用场景

AlignDP可应用于各种需要保护用户数据隐私的大型语言模型应用场景,例如:个性化推荐系统、智能客服、医疗诊断等。通过在数据接口处阻止知识转移,AlignDP可以有效防止敏感信息泄露,保护用户隐私,并促进LLM在隐私敏感领域的安全应用。

📄 摘要(原文)

Large language models are exposed to risks of extraction, distillation, and unauthorized fine-tuning. Existing defenses use watermarking or monitoring, but these act after leakage. We design AlignDP, a hybrid privacy lock that blocks knowledge transfer at the data interface. The key idea is to separate rare and non-rare fields. Rare fields are shielded by PAC indistinguishability, giving effective zero-epsilon local DP. Non-rare fields are privatized with RAPPOR, giving unbiased frequency estimates under local DP. A global aggregator enforces composition and budget. This two-tier design hides rare events and adds controlled noise to frequent events. We prove limits of PAC extension to global aggregation, give bounds for RAPPOR estimates, and analyze utility trade-off. A toy simulation confirms feasibility: rare categories remain hidden, frequent categories are recovered with small error.