Privacy-Preserving Student Learning with Differentially Private Data-Free Distillation
作者: Bochao Liu, Jianghu Lu, Pengju Wang, Junjie Zhang, Dan Zeng, Zhenxing Qian, Shiming Ge
分类: cs.LG, cs.AI, cs.CR, cs.CV
发布日期: 2024-09-19
备注: Published by IEEE MMSP 2022
💡 一句话要点
提出基于差分隐私无数据蒸馏的隐私保护学生学习方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 差分隐私 无数据蒸馏 隐私保护学习 生成对抗网络 选择性随机响应
📋 核心要点
- 深度学习模型训练依赖大量标注数据,但直接使用可能导致数据隐私泄露。
- 提出一种基于差分隐私的无数据蒸馏方法,通过生成合成数据训练学生模型,保护数据和标签隐私。
- 实验结果表明,该方法在保护隐私的同时,能够有效训练深度学习模型。
📝 摘要(中文)
深度学习模型通过从大量带标注数据中提取丰富知识来获得高推理精度,但在实际部署中可能存在数据隐私泄露的风险。本文提出了一种有效的师生学习方法,通过差分隐私无数据蒸馏来训练隐私保护的深度学习模型。核心思想是生成合成数据,使学生模型能够很好地模仿在私有数据上训练的教师模型的能力。该方法首先以无数据方式预训练一个生成器,并将教师模型作为固定的判别器。利用该生成器,可以生成大量的合成数据用于模型训练,而无需暴露数据隐私。然后,将合成数据输入到教师模型中以生成私有标签。为此,我们提出了一种称为选择性随机响应的标签差分隐私算法来保护标签信息。最后,在私有标签的监督下,在合成数据上训练学生模型。通过这种方式,数据隐私和标签隐私在一个统一的框架中得到很好的保护,从而产生隐私保护模型。大量的实验和分析清楚地证明了该方法的有效性。
🔬 方法详解
问题定义:论文旨在解决深度学习模型训练过程中,由于直接使用包含敏感信息的训练数据而导致的数据隐私泄露问题。现有方法通常需要访问原始数据,或者在训练过程中引入噪声,但这些方法可能影响模型性能或无法提供足够的隐私保护。
核心思路:论文的核心思路是利用无数据蒸馏技术,即不直接使用原始私有数据,而是训练一个生成器来生成合成数据,然后利用这些合成数据来训练学生模型。同时,为了保护标签的隐私,论文提出了一种选择性随机响应机制。
技术框架:整体框架包含三个主要阶段:1) 无数据生成器预训练:利用教师模型作为判别器,训练一个生成器,使其能够生成与真实数据分布相似的合成数据。2) 私有标签生成:将合成数据输入到教师模型中,得到预测标签,然后使用选择性随机响应机制对标签进行扰动,生成私有标签。3) 学生模型训练:使用合成数据和私有标签来训练学生模型,使其能够模仿教师模型的能力。
关键创新:论文的关键创新在于将无数据蒸馏与差分隐私技术相结合,提出了一种新的隐私保护学习框架。此外,论文还提出了一种选择性随机响应机制,用于保护标签的隐私,该机制可以根据标签的置信度选择性地应用随机扰动,从而在隐私保护和模型性能之间取得更好的平衡。
关键设计:在生成器预训练阶段,使用了对抗训练的思想,将教师模型作为判别器,鼓励生成器生成更逼真的数据。在私有标签生成阶段,选择性随机响应机制的关键参数是扰动概率,需要根据隐私预算进行调整。学生模型的训练使用了交叉熵损失函数,并可以根据具体任务选择合适的网络结构。
🖼️ 关键图片
📊 实验亮点
论文通过大量实验验证了所提出方法的有效性。实验结果表明,该方法在保护数据隐私的同时,能够获得与直接在原始数据上训练的模型相近的性能。与其他隐私保护方法相比,该方法在模型精度和隐私保护水平之间取得了更好的平衡。具体的性能数据在论文中有详细展示。
🎯 应用场景
该研究成果可应用于医疗健康、金融等对数据隐私要求较高的领域。例如,在医疗影像分析中,可以使用该方法训练模型,而无需直接访问患者的敏感影像数据。该方法有助于促进数据共享和协作,同时保护用户隐私,具有重要的实际应用价值和广阔的应用前景。
📄 摘要(原文)
Deep learning models can achieve high inference accuracy by extracting rich knowledge from massive well-annotated data, but may pose the risk of data privacy leakage in practical deployment. In this paper, we present an effective teacher-student learning approach to train privacy-preserving deep learning models via differentially private data-free distillation. The main idea is generating synthetic data to learn a student that can mimic the ability of a teacher well-trained on private data. In the approach, a generator is first pretrained in a data-free manner by incorporating the teacher as a fixed discriminator. With the generator, massive synthetic data can be generated for model training without exposing data privacy. Then, the synthetic data is fed into the teacher to generate private labels. Towards this end, we propose a label differential privacy algorithm termed selective randomized response to protect the label information. Finally, a student is trained on the synthetic data with the supervision of private labels. In this way, both data privacy and label privacy are well protected in a unified framework, leading to privacy-preserving models. Extensive experiments and analysis clearly demonstrate the effectiveness of our approach.