A Survey on Unlearning in Large Language Models

📄 arXiv: 2510.25117v2 📥 PDF

作者: Ruichen Qiu, Jiajun Tan, Jiayue Pu, Honglin Wang, Xiao-Shan Gao, Fei Sun

分类: cs.CL

发布日期: 2025-10-29 (更新: 2025-11-17)


💡 一句话要点

针对大型语言模型,提出基于干预阶段分类的全面性卸载学习综述

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 卸载学习 知识擦除 隐私保护 安全AI

📋 核心要点

  1. 大型语言模型容易记忆敏感信息,带来法律和伦理风险,现有卸载学习方法缺乏系统性的分类和评估。
  2. 该综述提出了一种新的分类法,根据干预阶段对卸载学习方法进行分类,并区分参数修改和参数选择策略。
  3. 该综述对现有卸载学习数据集和评估指标进行了多维度分析,并讨论了当前挑战和未来方向。

📝 摘要(中文)

大型语言模型(LLMs)展现了卓越的能力,但其在海量语料库上的训练也带来了记忆敏感信息的重大风险。为了缓解这些问题并符合法律标准,卸载学习已成为一项关键技术,可以在不影响LLM整体性能的情况下选择性地擦除特定知识。本综述系统地回顾了自2021年以来发表的180多篇关于LLM卸载学习的论文。首先,它引入了一种新的分类法,该分类法根据干预在LLM流程中的阶段对卸载学习方法进行分类。该框架进一步区分了参数修改和参数选择策略,从而能够进行更深入的见解和更明智的比较分析。其次,它提供了对评估范式的多维度分析。对于数据集,我们从任务格式、内容和实验范式的角度比较了18个现有基准,以提供可操作的指导。对于指标,我们超越了简单的枚举,将知识记忆指标分为10类,以分析其优势和适用性,同时还回顾了模型效用、鲁棒性和效率的指标。通过讨论当前的挑战和未来的方向,本综述旨在推进LLM卸载学习领域和安全AI系统的发展。

🔬 方法详解

问题定义:大型语言模型在训练过程中会记忆大量敏感信息,例如个人身份信息、版权内容等,这带来了隐私泄露、法律合规等问题。现有的卸载学习方法旨在从模型中移除这些敏感信息,但缺乏统一的分类和评估标准,难以进行有效比较和选择。

核心思路:该综述的核心思路是构建一个全面的LLM卸载学习框架,通过对现有方法进行系统性的分类和评估,为研究人员提供指导,并促进该领域的发展。该框架基于干预阶段对卸载学习方法进行分类,并区分参数修改和参数选择策略。

技术框架:该综述的技术框架主要包含以下几个部分:1) 提出一种新的卸载学习方法分类法,根据干预在LLM流程中的阶段进行分类;2) 对现有的卸载学习数据集进行多维度分析,包括任务格式、内容和实验范式;3) 对现有的卸载学习评估指标进行分类,包括知识记忆、模型效用、鲁棒性和效率等;4) 讨论LLM卸载学习的当前挑战和未来方向。

关键创新:该综述最重要的技术创新点在于提出了基于干预阶段的LLM卸载学习分类法。与以往的分类方法不同,该分类法更加关注卸载学习方法在LLM流程中的作用,能够更清晰地揭示不同方法的优缺点和适用场景。此外,该综述还对现有的数据集和评估指标进行了全面的分析,为研究人员提供了宝贵的参考。

关键设计:该综述的关键设计在于其分类法的构建和评估指标的选择。在分类法构建方面,作者仔细分析了LLM的训练流程,并根据干预阶段的不同,将卸载学习方法分为不同的类别。在评估指标选择方面,作者综合考虑了知识记忆、模型效用、鲁棒性和效率等多个方面,力求全面评估卸载学习方法的效果。

🖼️ 关键图片

fig_0

📊 实验亮点

该综述分析了180多篇LLM卸载学习论文,对18个现有基准数据集进行了比较,并将知识记忆指标分为10类进行分析。通过全面的分析,为研究人员提供了可操作的指导,并指出了该领域未来的发展方向。

🎯 应用场景

该研究成果可应用于各种需要保护用户隐私和遵守法律法规的场景,例如:在线教育、智能客服、金融风控等。通过使用LLM卸载学习技术,可以有效地移除模型中的敏感信息,降低数据泄露的风险,并提升AI系统的安全性。

📄 摘要(原文)

Large Language Models (LLMs) demonstrate remarkable capabilities, but their training on massive corpora poses significant risks from memorized sensitive information. To mitigate these issues and align with legal standards, unlearning has emerged as a critical technique to selectively erase specific knowledge from LLMs without compromising their overall performance. This survey provides a systematic review of over 180 papers on LLM unlearning published since 2021. First, it introduces a novel taxonomy that categorizes unlearning methods based on the phase in the LLM pipeline of the intervention. This framework further distinguishes between parameter modification and parameter selection strategies, thus enabling deeper insights and more informed comparative analysis. Second, it offers a multidimensional analysis of evaluation paradigms. For datasets, we compare 18 existing benchmarks from the perspectives of task format, content, and experimental paradigms to offer actionable guidance. For metrics, we move beyond mere enumeration by dividing knowledge memorization metrics into 10 categories to analyze their advantages and applicability, while also reviewing metrics for model utility, robustness, and efficiency. By discussing current challenges and future directions, this survey aims to advance the field of LLM unlearning and the development of secure AI systems.