PACZero: PAC-Private Fine-Tuning of Language Models via Sign Quantization
作者: Murat Bilgehan Ertan, Xiaochen Zhu, Phuong Ha Nguyen, Marten van Dijk, Srinivas Devadas
分类: cs.LG, cs.AI, cs.CR
发布日期: 2026-05-07
💡 一句话要点
提出PACZero以解决大语言模型隐私保护与效用平衡问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 隐私保护 语言模型 微调 成员推断攻击 符号量化 零阶梯度 PAC隐私 自然语言处理
📋 核心要点
- 现有方法在高隐私保护下难以实现可用的效用,尤其是在成员推断攻击的背景下。
- PACZero通过符号量化子集聚合的零阶梯度,降低了隐私成本,同时保持了模型的效用。
- 在SST-2数据集上,PACZero-ZPL在高隐私条件下达到了88.99的准确率,接近非私有基线的91.1。
📝 摘要(中文)
我们介绍了PACZero,这是一种PAC私有的零阶机制,用于微调大型语言模型,能够在$I(S^*; Y_{1:T})=0$的情况下提供可用的效用。这种隐私机制限制了成员推断攻击(MIA)的后验成功率,只有在$ ext{DP}$框架下$ ext{ε}=0$和无限噪声时才能匹配。PAC隐私的关键在于,只有当发布依赖于哪个候选子集是秘密时,才会对互信息进行收费。通过对子集聚合的零阶梯度进行符号量化,创建了频繁的一致性步骤,在这些步骤中,每个候选子集对更新方向达成一致;在这些步骤中,发布的符号成本为零条件互信息。我们提出了两种变体,涵盖隐私与效用的权衡:PACZero-MI和PACZero-ZPL。我们在SST-2和SQuAD上进行了评估,结果显示PACZero-ZPL在高隐私条件下获得了竞争力的准确性和非平凡的F1分数。
🔬 方法详解
问题定义:本论文旨在解决在微调大型语言模型时,如何在保证隐私的同时保持模型的效用。现有方法在高隐私保护下往往无法提供可用的性能,尤其是在面对成员推断攻击时。
核心思路:PACZero的核心思路是通过符号量化技术,减少在发布信息时的互信息,从而降低隐私泄露风险。通过聚合零阶梯度并在一致性步骤中发布符号,确保了隐私保护的同时,模型仍能有效更新。
技术框架:PACZero的整体架构包括两个主要模块:一是符号量化的零阶梯度计算,二是根据候选子集的一致性进行信息发布。具体流程为:首先计算梯度,然后进行符号量化,最后在一致性步骤中发布更新。
关键创新:PACZero的主要创新在于引入了PAC隐私框架,通过符号量化实现了在高隐私条件下的有效微调。这与传统的差分隐私方法不同,后者在高隐私下通常无法保持效用。
关键设计:在设计上,PACZero采用了两种变体:PACZero-MI通过精确校准实现预算互信息,而PACZero-ZPL则在不一致步骤中通过均匀投币实现$I=0$。这些设计确保了在不同隐私预算下的灵活性和效用。
📊 实验亮点
在实验中,PACZero-ZPL在SST-2数据集上达到了88.99的准确率,接近非私有基线91.1,且在高隐私条件下(ε<1)表现出色,展示了其在隐私保护与模型效用之间的有效平衡。
🎯 应用场景
PACZero的研究成果在多个领域具有潜在应用价值,尤其是在需要保护用户隐私的自然语言处理任务中,如医疗记录分析、金融数据处理等。随着对数据隐私保护需求的增加,PACZero有望在实际应用中发挥重要作用,推动隐私保护技术的发展。
📄 摘要(原文)
We introduce PACZero, a family of PAC-private zeroth-order mechanisms for fine-tuning large language models that delivers usable utility at $I(S^*; Y_{1:T})=0$. This privacy regime bounds the membership-inference attack (MIA) posterior success rate at the prior, an MIA-resistance level the DP framework matches only at $\varepsilon=0$ and infinite noise. All DP-ZO comparisons below are matched at the MIA posterior level. The key insight is that PAC Privacy charges mutual information only when the release depends on which candidate subset is the secret. Sign-quantizing subset-aggregated zeroth-order gradients creates frequent unanimity, steps at which every candidate subset agrees on the update direction; at these steps the released sign costs zero conditional mutual information. We propose two variants that span the privacy-utility trade-off: PACZero-MI (budgeted MI via exact calibration on the binary release) and PACZero-ZPL ($I=0$ via a uniform coin flip on disagreement steps). We evaluate on SST-2 and SQuAD with OPT-1.3B and OPT-6.7B in both LoRA and full-parameter tracks. On SST-2 OPT-1.3B full fine-tuning at $I=0$, PACZero-ZPL reaches ${88.99\pm0.91}$, within $2.1$pp of the non-private MeZO baseline ($91.1$ FT). No prior method produces usable utility in the high-privacy regime $\varepsilon<1$, and PACZero-ZPL obtains competitive SST-2 accuracy and nontrivial SQuAD F1 across OPT-1.3B and OPT-6.7B at $I=0$.