ZJUKLAB at SemEval-2025 Task 4: Unlearning via Model Merging
作者: Haoming Xu, Shuxun Wang, Yanqiu Zhao, Yi Zhong, Ziyan Jiang, Ningyuan Zhao, Shumin Deng, Huajun Chen, Ningyu Zhang
分类: cs.CL, cs.AI, cs.CV, cs.LG, cs.MM
发布日期: 2025-03-27 (更新: 2025-04-20)
备注: SemEval@ACL 2025
🔗 代码/项目: GITHUB
💡 一句话要点
ZJUKLAB提出基于模型融合的LLM敏感内容遗忘方法,在SemEval-2025 Task 4中排名第二。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 敏感内容遗忘 模型融合 TIES-Merging 知识擦除 隐私保护 持续学习
📋 核心要点
- 大型语言模型(LLM)的敏感内容遗忘面临过度遗忘和遗忘不足的挑战,现有方法难以平衡。
- 论文提出基于TIES-Merging的模型融合方法,将两个专门的模型合并,以实现更平衡的遗忘效果。
- 该方法在SemEval-2025 Task 4中取得了第二名的成绩,证明了其在敏感内容遗忘方面的有效性。
📝 摘要(中文)
本文介绍了ZJUKLAB团队在SemEval-2025 Task 4:从大型语言模型中遗忘敏感内容任务中的提交方案。该任务旨在选择性地从大型语言模型中擦除敏感知识,避免过度遗忘和遗忘不足的问题。我们提出了一种利用模型融合(特别是TIES-Merging)的遗忘系统,将两个专门的模型组合成一个更平衡的遗忘模型。我们的系统取得了有竞争力的结果,在26个团队中排名第二,在线Task Aggregate得分为0.944,总体Aggregate得分为0.487。在本文中,我们还进行了本地实验,并对遗忘过程进行了全面分析,检查了性能轨迹、损失动态和权重视角,以及几个补充实验,以了解我们方法的有效性。此外,我们分析了我们方法的缺点和评估指标,强调仅靠MIA分数和基于ROUGE的指标不足以完全评估成功的遗忘。最后,我们强调需要在未来的研究中采用更全面的评估方法,并重新思考遗忘目标。代码可在https://github.com/zjunlp/unlearn/tree/main/semeval25 获取。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)中存在的敏感内容遗忘问题。现有方法在尝试删除LLM中特定敏感信息时,常常面临两个主要挑战:一是“遗忘不足”,即模型未能有效删除目标知识;二是“过度遗忘”,即在删除敏感信息的同时,也损害了模型的一般知识和性能。因此,如何在删除敏感信息的同时,尽可能保留模型的原有能力,是该任务的核心难点。
核心思路:论文的核心思路是利用模型融合技术,特别是TIES-Merging,将两个模型进行合并。具体来说,一个是经过训练,包含敏感信息的原始模型,另一个是经过特定训练,尽可能“忘记”敏感信息的模型。通过融合这两个模型,期望得到一个既能有效删除敏感信息,又能尽可能保留原始模型性能的平衡模型。这种方法的设计理念在于,通过两个模型的互补,缓解单一模型遗忘可能带来的过度损失。
技术框架:该遗忘系统的整体框架主要包含以下几个步骤:1) 准备阶段:获取原始的、包含敏感信息的LLM;2) 遗忘模型训练阶段:使用特定的遗忘策略(例如对抗训练、微调等)训练一个专门用于“忘记”敏感信息的模型;3) 模型融合阶段:使用TIES-Merging算法将原始模型和遗忘模型进行融合,得到最终的遗忘模型;4) 评估阶段:使用特定的评估指标(包括MIA分数、ROUGE分数等)评估遗忘模型在敏感信息删除和通用性能保持方面的表现。
关键创新:该论文的关键创新在于将模型融合技术应用于LLM的敏感信息遗忘任务,并具体采用了TIES-Merging算法。与传统的微调或对抗训练等遗忘方法相比,模型融合能够更好地平衡敏感信息删除和模型性能保持之间的矛盾。TIES-Merging算法能够有效地合并两个模型的权重,从而在遗忘敏感信息的同时,尽可能保留模型的原有知识。
关键设计:在模型融合阶段,TIES-Merging算法是关键。该算法的核心在于识别并对齐两个模型中相似的权重,然后根据一定的策略(例如平均、加权平均等)合并这些权重。具体的参数设置包括:1) 权重对齐的阈值:用于判断两个权重是否相似;2) 权重合并的策略:例如,可以使用简单的平均,也可以根据模型的性能进行加权平均;3) 融合的比例:控制原始模型和遗忘模型在最终模型中的贡献比例。此外,损失函数的设计也至关重要,需要同时考虑敏感信息删除和通用性能保持两个方面。
🖼️ 关键图片
📊 实验亮点
该团队提出的基于模型融合的遗忘方法在SemEval-2025 Task 4中取得了显著成果,在26个参赛队伍中排名第二。在线Task Aggregate得分为0.944,总体Aggregate得分为0.487。实验结果表明,该方法能够在有效删除敏感信息的同时,尽可能保留模型的原有性能。此外,论文还对遗忘过程进行了深入分析,为未来的研究提供了有价值的参考。
🎯 应用场景
该研究成果可应用于各种需要保护用户隐私和数据安全的场景,例如:在线教育、医疗健康、金融服务等。通过选择性地遗忘LLM中的敏感信息,可以降低模型泄露用户隐私的风险,提高模型的安全性和可靠性。此外,该方法还可以用于模型的持续学习和知识更新,例如,当模型学习到错误或过时的知识时,可以使用该方法将其遗忘。
📄 摘要(原文)
This paper presents the ZJUKLAB team's submission for SemEval-2025 Task 4: Unlearning Sensitive Content from Large Language Models. This task aims to selectively erase sensitive knowledge from large language models, avoiding both over-forgetting and under-forgetting issues. We propose an unlearning system that leverages Model Merging (specifically TIES-Merging), combining two specialized models into a more balanced unlearned model. Our system achieves competitive results, ranking second among 26 teams, with an online score of 0.944 for Task Aggregate and 0.487 for overall Aggregate. In this paper, we also conduct local experiments and perform a comprehensive analysis of the unlearning process, examining performance trajectories, loss dynamics, and weight perspectives, along with several supplementary experiments, to understand the effectiveness of our method. Furthermore, we analyze the shortcomings of our method and evaluation metrics, emphasizing that MIA scores and ROUGE-based metrics alone are insufficient to fully evaluate successful unlearning. Finally, we emphasize the need for more comprehensive evaluation methodologies and rethinking of unlearning objectives in future research. Code is available at https://github.com/zjunlp/unlearn/tree/main/semeval25.