Operationalising the Right to be Forgotten in LLMs: A Lightweight Sequential Unlearning Framework for Privacy-Aligned Deployment in Politically Sensitive Environments

📄 arXiv: 2604.12459v1 📥 PDF

作者: Esen Kurt, Haithem Afli

分类: cs.AI

发布日期: 2026-04-14

备注: 10 pages

期刊: PoliticalNLP 2026


💡 一句话要点

提出轻量级序列化遗忘框架,用于在政治敏感环境中部署符合隐私法规的大语言模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 遗忘学习 隐私保护 政治敏感环境 序列化学习

📋 核心要点

  1. 现有大语言模型在政治敏感环境中的部署面临隐私泄露风险,需要满足“被遗忘权”等法规要求。
  2. 论文提出一种轻量级序列化遗忘框架,通过正向微调稳定模型能力,再通过层限制的负向微调抑制敏感信息。
  3. 实验表明,该方法在有效抑制敏感信息的同时,对模型的准确性和流畅性影响较小,GPT-2表现出更强的鲁棒性。

📝 摘要(中文)

大型语言模型(LLM)越来越多地部署在政治敏感环境中,在这些环境中,记忆个人数据或机密内容会引发GDPR等框架下的监管问题,以及“被遗忘权”。将此类法律原则转化为大规模生成系统带来了巨大的技术挑战。本文介绍了一种轻量级的序列化遗忘框架,该框架明确分离了保留和抑制目标。该方法首先通过正向微调来稳定良性能力,然后应用层限制的负向微调来抑制指定的敏感模式,同时保留一般的语言能力。在SemEval-2025 LLM Unlearning基准上的实验表明,该方法能够有效抑制行为,同时对事实准确性和流畅性的影响最小。GPT-2比DistilGPT-2表现出更强的鲁棒性,突出了模型容量在隐私对齐适应中的作用。我们将序列化遗忘定位为一种实用且可复现的机制,用于在政治部署的LLM中实现数据擦除要求。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在政治敏感环境中部署时,如何满足“被遗忘权”等隐私法规要求的问题。现有方法可能无法有效且高效地从LLM中删除特定信息,同时保持其通用语言能力,导致隐私泄露风险。

核心思路:论文的核心思路是将遗忘过程分解为两个阶段:首先,通过正向微调来稳定模型现有的良性能力,确保模型在遗忘特定信息后仍能保持其通用语言能力;然后,通过层限制的负向微调来专门抑制指定的敏感模式,从而实现信息的有效删除。这种分离保留和抑制目标的方法旨在最小化遗忘过程对模型整体性能的影响。

技术框架:该框架包含两个主要阶段:1) 正向微调(Positive Fine-tuning):使用不包含敏感信息的通用数据集对模型进行微调,以稳定模型的良性能力,例如语言流畅性和事实准确性。2) 层限制的负向微调(Layer-Restricted Negative Fine-tuning):使用包含敏感信息的对抗性数据集对模型的特定层进行微调,以抑制模型对这些敏感信息的记忆。通过限制微调的层数,可以减少对模型整体性能的干扰。

关键创新:该方法最重要的技术创新点在于其序列化的遗忘策略,即先稳定模型能力,再进行针对性的信息抑制。这种方法与传统的直接遗忘方法不同,后者可能会导致模型性能的显著下降。此外,层限制的负向微调也是一个创新点,它允许更精确地控制遗忘过程,并减少对模型其他部分的影响。

关键设计:在正向微调阶段,可以使用标准的交叉熵损失函数和Adam优化器。关键在于选择一个合适的通用数据集,以确保模型能够学习到广泛的语言模式。在负向微调阶段,需要精心设计对抗性数据集,使其包含尽可能多的敏感信息变体。此外,需要选择合适的层进行微调,通常是模型中负责存储特定信息的层。负向微调也使用交叉熵损失函数,但目标是使模型对敏感信息的预测概率降低。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法在SemEval-2025 LLM Unlearning基准上表现出色,能够在有效抑制敏感信息的同时,对模型的准确性和流畅性影响最小。具体而言,GPT-2模型在应用该方法后,在遗忘任务上取得了显著的性能提升,并且比DistilGPT-2模型表现出更强的鲁棒性,这表明模型容量在隐私对齐适应中起着重要作用。

🎯 应用场景

该研究成果可应用于各种需要满足隐私法规的大语言模型部署场景,例如:医疗健康、金融服务、法律咨询等。通过该方法,可以在政治敏感环境中安全地部署LLM,避免因模型记忆个人数据或机密信息而引发的法律风险。该技术还有助于提升LLM的可信度和安全性,促进其在更广泛领域的应用。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly deployed in politically sensitive environments, where memorisation of personal data or confidential content raises regulatory concerns under frameworks such as the GDPR and its Right to be Forgotten. Translating such legal principles into large-scale generative systems presents significant technical challenges. We introduce a lightweight sequential unlearning framework that explicitly separates retention and suppression objectives. The method first stabilises benign capabilities through positive fine-tuning, then applies layer-restricted negative fine-tuning to suppress designated sensitive patterns while preserving general language competence. Experiments on the SemEval-2025 LLM Unlearning benchmark demonstrate effective behavioural suppression with minimal impact on factual accuracy and fluency. GPT-2 exhibits greater robustness than DistilGPT-2, highlighting the role of model capacity in privacy-aligned adaptation. We position sequential unlearning as a practical and reproducible mechanism for operationalising data erasure requirements in politically deployed LLMs.