Quantization-Robust LLM Unlearning via Low-Rank Adaptation

📄 arXiv: 2602.13151v1 📥 PDF

作者: João Vitor Boer Abitante, Joana Meneguzzo Pasquali, Luan Fonseca Garcia, Ewerton de Oliveira, Thomas da Silva Paula, Rodrigo C. Barros, Lucas S. Kupssinskü

分类: cs.LG, cs.CL

发布日期: 2026-02-13


💡 一句话要点

提出基于LoRA的量化鲁棒LLM遗忘方法,解决低比特量化掩盖遗忘更新的问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 机器遗忘 低秩适应 量化 隐私保护

📋 核心要点

  1. 现有LLM遗忘方法在低比特量化后,遗忘效果会大打折扣,甚至完全失效,这是因为量化会掩盖或消除遗忘过程中的微小参数更新。
  2. 论文提出使用LoRA进行LLM遗忘,通过冻结预训练模型主体,仅训练低秩适配器,从而将遗忘更新集中在适配器中,使其在量化后仍然有效。
  3. 实验表明,基于LoRA的遗忘方法在4比特量化下,显著提升了模型的效用,降低了隐私泄露,同时保持了较好的遗忘效果。

📝 摘要(中文)

大型语言模型(LLM)遗忘旨在从已训练模型中移除特定知识,但实际部署通常需要训练后量化(PTQ)以实现高效推理。然而,激进的低比特PTQ会掩盖或消除遗忘更新,导致量化模型恢复到遗忘前的行为。研究表明,标准的全参数微调通常会产生太小的参数变化,无法在4比特量化中保留。因此,论文提出了一种基于低秩适应(LoRA)的量化鲁棒遗忘方法:冻结基础模型,并将遗忘集中在可训练的适配器中,以便在量化后保留有效的更新。在Llama-2-7B上,使用MUSE数据集(BOOKS和NEWS)进行评估,LoRA将4比特效用提高了高达7.93个点(BOOKS上的NPO+GDR:从50.17到58.10),并在NEWS上为GA+GDR产生了更高的4比特效用(从40.06到44.82,增加了4.76)。LoRA还显著降低了4比特PTQ下的隐私泄露,例如,对于BOOKS上的GA+KLR,PrivLeak从-25.68变为-5.86(更接近理想的0),同时保持了强大的遗忘效果(VerMem和KnowMem接近0)。因此,在模型部署需要量化的情况下,使用LoRA进行机器遗忘是有益的。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在进行知识遗忘后,经过低比特量化(如4比特量化)处理后,遗忘效果大幅降低甚至失效的问题。现有方法,如全参数微调,在进行遗忘时产生的参数变化幅度较小,经过量化后这些微小的变化容易被抹去,导致模型恢复到遗忘前的状态。

核心思路:论文的核心思路是利用低秩适应(LoRA)方法进行遗忘。LoRA通过冻结预训练模型的大部分参数,仅训练少量低秩适配器,从而将遗忘更新集中在这些适配器中。由于适配器的参数更新相对集中且幅度更大,因此在经过量化后,这些更新更容易被保留,从而保证遗忘效果。

技术框架:整体框架包含以下步骤:1) 在预训练的LLM上添加LoRA适配器;2) 冻结LLM主体参数,仅训练LoRA适配器,使其学习遗忘目标知识;3) 对训练后的模型进行量化(如4比特量化);4) 评估量化后模型的遗忘效果、效用和隐私泄露。主要模块包括:预训练LLM、LoRA适配器、遗忘训练模块、量化模块和评估模块。

关键创新:最重要的技术创新点在于将LoRA应用于LLM遗忘任务,并证明了其在量化环境下的鲁棒性。与全参数微调相比,LoRA能够更有效地保留遗忘更新,避免量化带来的信息损失。

关键设计:LoRA适配器的秩(rank)是一个关键参数,决定了适配器的容量和训练成本。论文可能需要探索不同的秩值,以找到在遗忘效果、模型效用和训练效率之间的最佳平衡点。此外,损失函数的设计也至关重要,需要同时考虑遗忘目标、模型效用和隐私保护。

📊 实验亮点

实验结果表明,在Llama-2-7B模型上,使用LoRA进行遗忘后,在4比特量化下,模型效用显著提升,例如在BOOKS数据集上,NPO+GDR指标从50.17提升到58.10,提升了7.93个点。同时,隐私泄露也显著降低,例如在BOOKS数据集上,GA+KLR指标从-25.68变为-5.86,更接近理想值0。这些结果表明,LoRA能够有效提升量化后LLM的遗忘效果和隐私保护能力。

🎯 应用场景

该研究成果可应用于对隐私和安全有严格要求的LLM部署场景,例如金融、医疗等领域。在这些场景中,模型需要具备遗忘特定敏感信息的能力,同时保持高效的推理速度。通过结合LoRA和量化技术,可以在保证模型性能的同时,有效降低隐私泄露的风险。

📄 摘要(原文)

Large Language Model (LLM) unlearning aims to remove targeted knowledge from a trained model, but practical deployments often require post-training quantization (PTQ) for efficient inference. However, aggressive low-bit PTQ can mask or erase unlearning updates, causing quantized models to revert to pre-unlearning behavior. We show that standard full-parameter fine-tuning often induce parameter changes that are too small to survive 4-bit quantization. We propose quantization-robust unlearning via low-rank adaptation (LoRA): we freeze the base model and concentrate unlearning into trainable adapters so that the effective update is preserved after quantization. On Llama-2-7B evaluated with MUSE dataset (BOOKS and NEWS), LoRA improves 4-bit utility by up to 7.93 points (NPO+GDR on BOOKS: 50.17 to 58.10) and yields higher 4-bit utility on NEWS for GA+GDR (40.06 to 44.82, increase of 4.76). LoRA also substantially reduces privacy leakage under 4-bit PTQ, e.g., for GA+KLR on BOOKS, PrivLeak moves from -25.68 to -5.86 (closer to ideal 0), while maintaining strong forgetting (VerMem and KnowMem near 0). Thus, using LoRA for Machine Unlearning is beneficial for scenarios where quantization is necessary for model deployment.