Differentially Private Learning Needs Better Model Initialization and Self-Distillation

📄 arXiv: 2410.17566v1 📥 PDF

作者: Ivoline C. Ngong, Joseph P. Near, Niloofar Mireshghallah

分类: cs.LG, cs.AI, cs.CL, cs.CR

发布日期: 2024-10-23

备注: 18 pages


💡 一句话要点

DPRefine通过改进初始化和自蒸馏提升差分隐私语言模型的效用性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 差分隐私 语言模型 自蒸馏 数据合成 隐私保护 DPSGD 模型初始化

📋 核心要点

  1. DPSGD在语言模型训练中引入隐私保护,但常导致模型效用性、多样性和语言质量下降。
  2. DPRefine通过数据合成初始化模型,结合DP微调和自蒸馏,提升隐私保护下的模型性能。
  3. 实验表明,DPRefine显著优于DPSGD,减少了语言错误和不一致性,提升了生成文本的质量。

📝 摘要(中文)

差分隐私随机梯度下降(DPSGD)能够对语言模型进行隐私保护训练,但通常会降低模型的效用性、多样性和语言质量。本文提出了一种名为DPRefine的三阶段方法,该方法首先利用小型预训练语言模型合成数据并进行严格过滤来初始化模型,然后在私有数据上应用DP微调,最后执行自蒸馏以优化输出。实验结果表明,DPRefine显著优于vanilla DPSGD,在所有数据集中,AlpacaEval更偏好DPRefine生成的文本,比例高达78.4%。分析表明,DPRefine将生成文本中的语言错误减少了84.0%,减轻了通常与DPSGD相关的语法和拼写错误。此外,它还减少了非私有模型的不一致性,例如幻觉细节和错误引用的情况。研究发现,像GPT-2这样的小型模型可以有效地用于初始化和蒸馏,突出了它们在实现可扩展和高效的隐私保护语言模型部署方面的潜力。

🔬 方法详解

问题定义:论文旨在解决差分隐私训练(特别是DPSGD)在语言模型上的应用所导致的效用性下降问题。现有的DPSGD方法在保护隐私的同时,往往会牺牲模型的生成质量,包括产生更多的语法错误、拼写错误,以及出现幻觉和不一致性等问题。这些问题限制了DPSGD在实际应用中的可行性。

核心思路:论文的核心思路是通过一个三阶段的方法来缓解DPSGD带来的负面影响。首先,利用一个小型预训练语言模型生成合成数据,并用这些数据来初始化模型,从而提供一个更好的起点。然后,在私有数据上进行DPSGD微调。最后,使用自蒸馏技术来进一步提升模型的性能和生成质量。这种方法旨在结合预训练模型的知识、差分隐私的保护和蒸馏技术的优化,从而在隐私保护和模型效用之间取得更好的平衡。

技术框架:DPRefine包含三个主要阶段: 1. 初始化阶段:使用小型预训练语言模型(如GPT-2)生成合成数据,并对这些数据进行过滤,以确保其质量。然后,使用这些高质量的合成数据来初始化待训练的模型。 2. DP微调阶段:在私有数据上使用DPSGD对模型进行微调。这一阶段的关键在于控制隐私预算,并尽可能地利用私有数据来提升模型性能。 3. 自蒸馏阶段:使用微调后的模型作为教师模型,生成伪标签,然后使用这些伪标签来训练一个学生模型。这个过程可以进一步提升模型的泛化能力和生成质量。

关键创新:该方法的主要创新在于将数据合成初始化、DP微调和自蒸馏三个阶段结合起来,形成一个完整的隐私保护训练流程。特别值得注意的是,使用合成数据进行初始化可以为DPSGD提供一个更好的起点,从而减少了对私有数据的依赖,并提升了模型的性能。此外,自蒸馏阶段可以进一步提升模型的泛化能力和生成质量。

关键设计: * 数据合成与过滤:使用小型预训练模型生成数据,并设定阈值过滤低质量样本。 * DPSGD参数:需要仔细调整DPSGD的参数,如学习率、裁剪范数和隐私预算,以在隐私保护和模型性能之间取得平衡。 * 自蒸馏损失函数:可以使用交叉熵损失或KL散度等损失函数来训练学生模型,目标是让学生模型的输出尽可能接近教师模型的输出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DPRefine在生成文本质量方面显著优于vanilla DPSGD。具体而言,AlpacaEval评估结果显示,在所有数据集上,DPRefine生成的文本在78.4%的情况下更受偏好。此外,DPRefine还将生成文本中的语言错误减少了84.0%,有效缓解了DPSGD常见的语法和拼写错误。该方法还减少了非私有模型中常见的不一致性问题,如幻觉细节和错误引用。

🎯 应用场景

DPRefine可应用于需要隐私保护的语言模型训练场景,例如医疗记录分析、金融交易预测、用户行为建模等。该方法能够在保护用户隐私的同时,提升模型的效用性和生成质量,从而促进隐私保护技术在实际应用中的普及。未来,该方法可以进一步扩展到其他类型的模型和数据,为构建更加安全可靠的人工智能系统提供支持。

📄 摘要(原文)

Differentially private SGD (DPSGD) enables privacy-preserving training of language models, but often reduces utility, diversity, and linguistic quality. We introduce DPRefine, a three-phase method that initializes a model using data synthesis from a small pre-trained LM with rigorous filtering, applies DP finetuning on private data, and performs self-distillation to refine outputs. This approach significantly outperforms vanilla DPSGD, with AlpacaEval preferring DPRefine's generations in 78.4% of cases across all datasets. Our analysis reveals that DPRefine reduces linguistic errors in generated text by 84.0%, mitigating grammar and spelling errors, commonly associated with DPSGD. It also reduces inconsistencies of non-private models, such as hallucinated details and misattributed quotes. We find that small models like GPT-2 can be effective for initialization and distillation, highlighting their potential in enabling scalable and efficient deployment of privacy-preserving language.