DP-OPD: Differentially Private On-Policy Distillation for Language Models

📄 arXiv: 2604.04461 📥 PDF

作者: Fatemeh Khadem, Sajad Mousavi, Yi Fang, Yuhong Liu

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-04-07


💡 一句话要点

提出DP-OPD以解决语言模型隐私保护与压缩效率的矛盾

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 差分隐私 语言模型 模型蒸馏 自回归生成 隐私保护 知识蒸馏 模型压缩

📋 核心要点

  1. 现有的差分隐私蒸馏方法在计算复杂度和隐私-效用权衡上存在不足,导致效用损失严重。
  2. 论文提出的DP-OPD框架通过对学生进行DP-SGD来实现隐私保护,利用冻结的教师生成密集的目标,避免了合成文本的需求。
  3. 实验结果表明,DP-OPD在多个数据集上显著提升了模型性能,困惑度降低,且训练流程更加简化。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地适应包含敏感信息的专有和领域特定语料,导致在模型压缩的高效部署与隐私保护之间的紧张关系。差分隐私(DP)通常通过DP-SGD实现记录级保护,但在自回归生成中常导致显著的效用损失。现有的私有蒸馏方法要么对教师和学生都应用DP-SGD,增加计算复杂度和隐私-效用权衡,要么依赖于从DP训练的教师生成的DP合成文本,避免对学生进行DP,但代价是需要优化大型教师并引入离线生成管道。本文提出了差分隐私在线蒸馏(DP-OPD),一个无合成的框架,仅通过对学生进行DP-SGD来强制隐私,同时利用冻结的教师提供密集的令牌级目标。DP-OPD在严格的隐私预算下显著提高了困惑度,并简化了训练流程。

🔬 方法详解

问题定义:本文旨在解决在大型语言模型中实现差分隐私保护与模型压缩效率之间的矛盾。现有方法在隐私保护与效用之间的权衡往往导致效用损失,尤其是在自回归生成任务中。

核心思路:DP-OPD框架的核心思想是仅对学生模型进行DP-SGD,从而实现隐私保护,同时利用冻结的教师模型提供密集的目标,避免了合成文本的复杂性。

技术框架:DP-OPD的整体架构包括两个主要模块:一个是冻结的教师模型,提供目标;另一个是进行DP-SGD训练的学生模型。学生模型在生成的轨迹上进行训练,确保隐私保护。

关键创新:DP-OPD的主要创新在于其无合成的设计,显著简化了训练流程,避免了对教师模型的DP训练和离线合成文本生成的需求。

关键设计:在DP-OPD中,关键参数设置包括隐私预算(ε=2.0),损失函数采用私有广义知识蒸馏,确保在生成的继续令牌上进行有效的知识传递。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,DP-OPD在Yelp和BigPatent数据集上分别将困惑度从44.15降低到41.68,以及从32.43降低到30.63,显著优于现有的DP微调和基于合成的DP蒸馏方法,同时简化了训练管道。

🎯 应用场景

该研究的潜在应用领域包括敏感信息处理的语言模型,如医疗、金融等行业的文本生成与理解。通过实现有效的隐私保护,DP-OPD可以在保护用户数据的同时,提升模型的实用性和效率,具有重要的实际价值和未来影响。

📄 摘要(原文)

Large language models (LLMs) are increasingly adapted to proprietary and domain-specific corpora that contain sensitive information, creating a tension between formal privacy guarantees and efficient deployment through model compression. Differential privacy (DP), typically enforced via DP-SGD, provides record-level protection but often incurs substantial utility loss in autoregressive generation, where optimization noise can amplify exposure bias and compounding errors along long rollouts. Existing approaches to private distillation either apply DP-SGD to both teacher and student, worsening computation and the privacy--utility tradeoff, or rely on DP synthetic text generation from a DP-trained teacher, avoiding DP on the student at the cost of DP-optimizing a large teacher and introducing an offline generation pipeline. We propose \textbf{Differentially Private On-Policy Distillation (DP-OPD)}, a synthesis-free framework that enforces privacy solely through DP-SGD on the student while leveraging a frozen teacher to provide dense token-level targets on \emph{student-generated} trajectories. DP-OPD instantiates this idea via \emph{private generalized knowledge distillation} on continuation tokens. Under a strict privacy budget ($\varepsilon=2.0$), DP-OPD improves perplexity over DP fine-tuning and off-policy DP distillation, and outperforms synthesis-based DP distillation (Yelp: 44.15$\rightarrow$41.68; BigPatent: 32.43$\rightarrow$30.63), while substantially simplifying the training pipeline. In particular, \textbf{DP-OPD collapses private compression into a single DP student-training loop} by eliminating DP teacher training and offline synthetic text generation. Code will be released upon publication atthis https URL.