Robust LLM Unlearning Against Relearning Attacks: The Minor Components in Representations Matter
作者: Zeguan Xiao, Xuanzhe Xu, Yun Chen, Yong Wang, Jian Yang, Yanqing Hu, Guanhua Chen
分类: cs.CL
发布日期: 2026-05-12
💡 一句话要点
提出MCU方法,通过优化表征中的次要成分,增强LLM抗重学习攻击的卸载能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型卸载 重学习攻击 表征学习 次要成分优化 模型安全
📋 核心要点
- 现有LLM卸载方法易受重学习攻击,主因是其主要优化表征中的主导成分,导致卸载效果容易被逆转。
- 论文提出Minor Component Unlearning (MCU),通过重点优化表征中的次要成分,增强模型对重学习攻击的抵抗力。
- 实验表明,MCU在三个数据集上显著优于现有方法,包括锐度感知最小化,验证了其有效性。
📝 摘要(中文)
大型语言模型(LLM)卸载旨在从预训练模型中移除特定数据的影响,而无需昂贵的重新训练,从而解决隐私、版权和安全问题。然而,最近的研究揭示了一个关键漏洞:卸载后的模型可以通过重学习攻击迅速恢复“遗忘”的知识。这种脆弱性引发了严重的安全问题,特别是对于开放权重的模型。本文从表征几何的角度研究了这种脆弱性的根本机制。我们发现,现有的卸载方法主要优化主导成分,而次要成分基本保持不变。关键的是,在重学习攻击期间,这些主导成分的修改很容易被逆转,从而实现知识的快速恢复,而次要成分对这种逆转表现出更强的抵抗力。我们进一步提供了理论分析,从表征的谱结构解释了这两种观察结果。在此基础上,我们提出了一种新的卸载方法——次要成分卸载(MCU),该方法明确针对表征中的次要成分。通过将卸载效果集中在这些固有的鲁棒方向上,我们的方法实现了对重学习攻击的显著增强的抵抗力。在三个数据集上的大量实验验证了我们的方法,证明了相对于包括锐度感知最小化在内的最先进方法的显著改进。
🔬 方法详解
问题定义:现有LLM卸载方法在面对重学习攻击时表现脆弱,卸载后的模型容易恢复遗忘的知识。这是因为现有方法主要关注优化表征中的主导成分,而忽略了次要成分,导致卸载效果容易被重学习攻击逆转。
核心思路:论文的核心思路是,表征中的次要成分对重学习攻击具有更强的抵抗力。因此,通过将卸载效果集中在这些次要成分上,可以显著提高模型对重学习攻击的鲁棒性。这样设计的理由是,主导成分通常携带模型的主要知识,容易被攻击者利用,而次要成分则相对稳定。
技术框架:MCU方法的技术框架主要包括以下步骤:1) 分析模型表征的谱结构,识别主导成分和次要成分;2) 设计损失函数,鼓励模型在卸载过程中主要修改次要成分;3) 使用优化算法更新模型参数,实现对特定数据的卸载。整体流程旨在最小化对主导成分的修改,同时最大化对次要成分的修改,从而提高卸载的鲁棒性。
关键创新:最重要的技术创新点在于,它将卸载的重点从表征的主导成分转移到次要成分。与现有方法不同,MCU明确针对次要成分进行优化,利用其固有的鲁棒性来抵抗重学习攻击。这种转变是理解卸载脆弱性的关键,也是提高卸载安全性的有效途径。
关键设计:MCU的关键设计包括:1) 使用奇异值分解(SVD)或类似方法分析表征的谱结构,确定主导和次要成分;2) 设计损失函数,例如,可以使用正则化项来惩罚对主导成分的修改,同时鼓励对次要成分的修改;3) 可以使用现有的优化算法,如Adam或SGD,但需要调整学习率或其他超参数,以更好地适应次要成分的优化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MCU在三个数据集上显著优于现有最先进的卸载方法,包括基于锐度感知最小化的方法。具体而言,MCU在抵抗重学习攻击方面取得了显著的性能提升,证明了其有效性。量化指标显示,使用MCU卸载的模型在重学习攻击下的知识恢复率明显低于其他方法。
🎯 应用场景
该研究成果可应用于各种需要数据卸载的场景,例如保护用户隐私、维护版权和确保AI系统的安全性。通过提高LLM卸载的鲁棒性,可以有效防止恶意攻击者利用重学习技术恢复已删除的敏感信息,从而提升AI系统的整体安全性。
📄 摘要(原文)
Large language model (LLM) unlearning aims to remove specific data influences from pre-trained model without costly retraining, addressing privacy, copyright, and safety concerns. However, recent studies reveal a critical vulnerability: unlearned models rapidly recover "forgotten" knowledge through relearning attacks. This fragility raises serious security concerns, especially for open-weight models. In this work, we investigate the fundamental mechanism underlying this fragility from a representation geometry perspective. We discover that existing unlearning methods predominantly optimize along dominant components, leaving minor components largely unchanged. Critically, during relearning attacks, the modifications in these dominant components are easily reversed, enabling rapid knowledge recovery, whereas minor components exhibit stronger resistance to such reversal. We further provide a theoretical analysis that explains both observations from the spectral structure of representations. Building on this insight, we propose Minor Component Unlearning (MCU), a novel unlearning approach that explicitly targets minor components in representations. By concentrating unlearning effects in these inherently robust directions, our method achieves substantially improved resistance to relearning attacks. Extensive experiments on three datasets validate our approach, demonstrating significant improvements over state-of-the-art methods including sharpness-aware minimization.