SHA256 at SemEval-2025 Task 4: Selective Amnesia -- Constrained Unlearning for Large Language Models via Knowledge Isolation
作者: Saransh Agrawal, Kuan-Hao Huang
分类: cs.CL, cs.AI
发布日期: 2025-04-17
备注: 8 pages, In Proceedings of The 19th International Workshop on Semantic Evaluation (SemEval), 2025
💡 一句话要点
提出基于因果分析和分层优化的选择性遗忘方法,提升LLM数据隐私保护能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器学习遗忘 选择性遗忘 因果分析 层特定优化 大型语言模型 数据隐私 知识隔离
📋 核心要点
- 现有LLM易记忆敏感信息,但现有遗忘方法难以在不影响模型性能的前提下选择性删除特定数据关联。
- 该论文提出一种两阶段方法,结合因果中介分析和层特定优化,实现对LLM的选择性遗忘。
- 实验结果表明,该方法在保持较高模型性能的同时,有效实现了目标遗忘,并在SemEval-2025比赛中取得优异成绩。
📝 摘要(中文)
大型语言模型(LLM)在训练过程中经常会记忆敏感信息,这给公开发布的模型带来了风险。现有的机器学习遗忘方法难以选择性地删除特定的数据关联,同时保持模型的整体性能。本文提出了针对SemEval-2025 Task 4目标遗忘任务的解决方案,该方案采用了一种结合因果中介分析和层特定优化的两阶段方法。通过对OLMo架构(1B和7B参数)的系统因果追踪实验,我们确定了前几个Transformer层(第0-5层)在MLP模块中存储主题-属性关联的关键作用。在此基础上,我们开发了一种约束优化方法,该方法冻结上层,同时对下层应用一种新的联合损失函数——通过输出token交叉熵惩罚最大化遗忘集损失,并通过自适应正则化最小化保留集偏差。我们的方法在1B模型track中获得了第二名,展示了强大的任务性能,同时保持了88%的基线MMLU准确率。这些结果表明,因果驱动的层优化是LLM中高效、精确遗忘的一种有前景的范例,为解决AI系统中的数据隐私问题迈出了重要一步。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在训练过程中记忆敏感信息,导致隐私泄露的问题。现有的机器学习遗忘方法通常难以在删除特定数据关联的同时,保持模型的整体性能,容易出现“灾难性遗忘”现象。因此,如何选择性地遗忘LLM中的特定知识,同时尽可能减少对模型通用能力的损害,是本研究要解决的核心问题。
核心思路:论文的核心思路是基于因果分析定位存储敏感信息的关键模型层,然后针对这些层进行选择性的优化。通过因果中介分析,确定哪些层对存储特定知识起关键作用。然后,通过约束优化,只对这些关键层进行调整,而保持其他层的参数不变,从而减少对模型整体性能的影响。这种方法旨在实现精确的知识擦除,同时最大限度地保留模型的通用能力。
技术框架:该方法主要包含两个阶段:1) 因果分析阶段:使用因果追踪技术,分析OLMo模型中不同层对存储主题-属性关联的影响,确定存储敏感信息的关键层(通常是前几层Transformer层)。2) 约束优化阶段:冻结非关键层,只对关键层进行优化。优化过程中,使用一个联合损失函数,同时最大化遗忘集上的损失(通过交叉熵惩罚),并最小化保留集上的偏差(通过自适应正则化)。
关键创新:该方法最重要的创新点在于结合了因果分析和层特定优化。通过因果分析,能够更精确地定位需要遗忘的知识存储位置,避免了对整个模型进行全局调整,从而减少了对模型性能的损害。同时,层特定的优化策略,允许针对不同层采用不同的优化目标和策略,进一步提高了遗忘的效率和精度。
关键设计:在约束优化阶段,关键的设计包括:1) 层选择:通过因果分析确定需要优化的层,通常是Transformer的前几层(例如,第0-5层)。2) 联合损失函数:该损失函数包含两部分:一部分是遗忘集上的交叉熵损失,用于鼓励模型忘记目标知识;另一部分是保留集上的正则化项,用于防止模型过度遗忘,保持模型的通用能力。正则化系数是自适应调整的,以平衡遗忘和保留之间的trade-off。3) 优化器选择:论文使用了常见的优化器(具体类型未知)进行训练。
🖼️ 关键图片
📊 实验亮点
该方法在SemEval-2025 Task 4的1B模型track中获得了第二名,证明了其有效性。实验结果表明,该方法在实现有效遗忘的同时,能够保持88%的基线MMLU准确率。这表明该方法能够在遗忘特定知识的同时,最大限度地保留模型的通用能力,优于传统的全局遗忘方法。
🎯 应用场景
该研究成果可应用于各种需要保护用户隐私的场景,例如:在LLM被用于处理医疗、金融等敏感数据时,可以使用该方法选择性地遗忘用户个人信息,避免隐私泄露。此外,该方法还可以用于模型的安全加固,防止模型被用于生成有害内容。未来,该技术有望成为LLM安全部署的重要组成部分。
📄 摘要(原文)
Large language models (LLMs) frequently memorize sensitive information during training, posing risks when deploying publicly accessible models. Current machine unlearning methods struggle to selectively remove specific data associations without degrading overall model capabilities. This paper presents our solution to SemEval-2025 Task 4 on targeted unlearning, which introduces a two-stage methodology that combines causal mediation analysis with layer-specific optimization. Through systematic causal tracing experiments on OLMo architectures (1B and 7B parameters), we identify the critical role of the first few transformer layers (layers 0-5) in storing subject-attribute associations within MLP modules. Building on this insight, we develop a constrained optimization approach that freezes upper layers while applying a novel joint loss function to lower layers-simultaneously maximizing forget set loss via output token cross-entropy penalties and minimizing retain set deviation through adaptive regularization. Our method achieves 2nd place in the 1B model track, demonstrating strong task performance while maintaining 88% of baseline MMLU accuracy. These results establish causal-informed layer optimization as a promising paradigm for efficient, precise unlearning in LLMs, offering a significant step forward in addressing data privacy concerns in AI systems.