MPU: Towards Secure and Privacy-Preserving Knowledge Unlearning for Large Language Models

📄 arXiv: 2602.23798v1 📥 PDF

作者: Tiantong Wang, Xinyu Yan, Tiantong Wu, Yurong Hao, Yong Jiang, Fei Huang, Wei Yang Bryan Lim

分类: cs.LG, cs.AI, cs.CR, cs.DC

发布日期: 2026-02-27

🔗 代码/项目: GITHUB


💡 一句话要点

提出MPU框架,解决大语言模型知识遗忘中的隐私保护难题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识遗忘 大语言模型 隐私保护 联邦学习 差分隐私

📋 核心要点

  1. 大语言模型知识遗忘面临严格的隐私约束,即服务器参数和客户端遗忘数据均不可泄露。
  2. MPU框架通过预处理生成扰动模型副本,客户端本地遗忘,后处理聚合更新,实现隐私保护。
  3. 实验表明,MPU在保护隐私的同时,实现了与无噪声基线相当甚至更好的遗忘性能。

📝 摘要(中文)

针对大语言模型知识遗忘中服务器参数和客户端遗忘集均需保密的隐私困境,我们提出了MPU,一种算法无关的隐私保护多扰动副本遗忘框架。MPU主要引入两个服务器端模块:用于随机副本生成的预处理模块和用于更新聚合的后处理模块。在预处理阶段,服务器分发多个扰动和重参数化的模型实例,允许客户端在其私有遗忘集上本地执行遗忘,而无需访问服务器的精确原始参数。在本地遗忘后,服务器执行后处理,通过反转重参数化并使用谐波去噪程序聚合更新,以减轻扰动的影响。对七种遗忘算法的实验表明,MPU实现了与无噪声基线相当的遗忘性能,在10%噪声下,大多数算法的平均性能下降远低于1%,并且在1%噪声下,某些算法甚至优于无噪声基线。代码可在https://github.com/Tristan-SHU/MPU 获取。

🔬 方法详解

问题定义:大语言模型知识遗忘任务中,如何在不泄露服务器模型参数和客户端遗忘数据的前提下,安全有效地执行知识遗忘?现有方法要么需要共享模型参数,要么需要共享遗忘数据,无法满足严格的隐私保护需求。

核心思路:MPU的核心思路是利用多副本扰动和聚合的思想,服务器生成多个轻微扰动的模型副本分发给客户端,客户端在本地使用私有遗忘数据对这些副本进行遗忘训练,然后服务器收集这些更新并进行聚合,从而在不暴露原始模型参数和遗忘数据的情况下实现知识遗忘。

技术框架:MPU框架包含两个主要模块:预处理(Pre-Process)和后处理(Post-Process)。预处理阶段,服务器首先对原始模型进行重参数化,然后添加随机扰动,生成多个扰动后的模型副本。这些副本被分发给客户端。客户端在本地使用私有遗忘数据对接收到的模型副本进行遗忘训练。后处理阶段,服务器收集客户端的更新,反转重参数化操作,并使用谐波去噪程序聚合这些更新,得到最终的遗忘模型。

关键创新:MPU的关键创新在于其隐私保护机制和多副本扰动聚合策略。通过扰动模型副本,MPU避免了直接暴露原始模型参数,从而保护了服务器的隐私。同时,客户端在本地进行遗忘训练,无需上传遗忘数据,保护了客户端的隐私。多副本扰动聚合策略通过引入一定的噪声,进一步增强了隐私保护能力,并通过聚合多个副本的更新来提高遗忘性能。

关键设计:MPU的关键设计包括扰动强度的选择、重参数化方式、以及谐波去噪程序的参数设置。扰动强度需要仔细调整,以在隐私保护和遗忘性能之间取得平衡。重参数化方式的选择也会影响模型的性能和隐私保护效果。谐波去噪程序的参数需要根据具体的模型和数据集进行调整,以获得最佳的去噪效果。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,MPU框架在七种不同的遗忘算法上均取得了良好的效果。在10%的噪声水平下,大多数算法的平均性能下降低于1%,表明MPU在保护隐私的同时,能够保持良好的遗忘性能。更令人惊讶的是,在1%的噪声水平下,MPU甚至在某些算法上优于无噪声基线,这表明适当的噪声可能有助于提高模型的泛化能力。

🎯 应用场景

MPU框架可应用于各种需要保护隐私的大语言模型知识遗忘场景,例如:金融、医疗等敏感数据处理,以及用户个性化定制模型的知识更新。该研究有助于推动安全可信赖的人工智能发展,并为未来的联邦学习和隐私计算研究提供借鉴。

📄 摘要(原文)

Machine unlearning for large language models often faces a privacy dilemma in which strict constraints prohibit sharing either the server's parameters or the client's forget set. To address this dual non-disclosure constraint, we propose MPU, an algorithm-agnostic privacy-preserving Multiple Perturbed Copies Unlearning framework that primarily introduces two server-side modules: Pre-Process for randomized copy generation and Post-Process for update aggregation. In Pre-Process, the server distributes multiple perturbed and reparameterized model instances, allowing the client to execute unlearning locally on its private forget set without accessing the server's exact original parameters. After local unlearning, the server performs Post-Process by inverting the reparameterization and aggregating updates with a harmonic denoising procedure to alleviate the impact of perturbation. Experiments with seven unlearning algorithms show that MPU achieves comparable unlearning performance to noise-free baselines, with most algorithms' average degradation well below 1% under 10% noise, and can even outperform the noise-free baseline for some algorithms under 1% noise. Code is available at https://github.com/Tristan-SHU/MPU.