Quantization-Robust LLM Unlearning via Low-Rank Adaptation

作者: João Vitor Boer Abitante, Joana Meneguzzo Pasquali, Luan Fonseca Garcia, Ewerton de Oliveira, Thomas da Silva Paula, Rodrigo C. Barros, Lucas S. Kupssinskü

分类: cs.LG, cs.CL

发布日期: 2026-02-13

💡 一句话要点

提出基于LoRA的量化鲁棒LLM遗忘方法，解决低比特量化掩盖遗忘更新的问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 机器遗忘 低秩适应 量化 隐私保护

📋 核心要点

现有LLM遗忘方法在低比特量化后，遗忘效果会大打折扣，甚至完全失效，这是因为量化会掩盖或消除遗忘过程中的微小参数更新。
论文提出使用LoRA进行LLM遗忘，通过冻结预训练模型主体，仅训练低秩适配器，从而将遗忘更新集中在适配器中，使其在量化后仍然有效。
实验表明，基于LoRA的遗忘方法在4比特量化下，显著提升了模型的效用，降低了隐私泄露，同时保持了较好的遗忘效果。

📝 摘要（中文）

大型语言模型（LLM）遗忘旨在从已训练模型中移除特定知识，但实际部署通常需要训练后量化（PTQ）以实现高效推理。然而，激进的低比特PTQ会掩盖或消除遗忘更新，导致量化模型恢复到遗忘前的行为。研究表明，标准的全参数微调通常会产生太小的参数变化，无法在4比特量化中保留。因此，论文提出了一种基于低秩适应（LoRA）的量化鲁棒遗忘方法：冻结基础模型，并将遗忘集中在可训练的适配器中，以便在量化后保留有效的更新。在Llama-2-7B上，使用MUSE数据集（BOOKS和NEWS）进行评估，LoRA将4比特效用提高了高达7.93个点（BOOKS上的NPO+GDR：从50.17到58.10），并在NEWS上为GA+GDR产生了更高的4比特效用（从40.06到44.82，增加了4.76）。LoRA还显著降低了4比特PTQ下的隐私泄露，例如，对于BOOKS上的GA+KLR，PrivLeak从-25.68变为-5.86（更接近理想的0），同时保持了强大的遗忘效果（VerMem和KnowMem接近0）。因此，在模型部署需要量化的情况下，使用LoRA进行机器遗忘是有益的。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在进行知识遗忘后，经过低比特量化（如4比特量化）处理后，遗忘效果大幅降低甚至失效的问题。现有方法，如全参数微调，在进行遗忘时产生的参数变化幅度较小，经过量化后这些微小的变化容易被抹去，导致模型恢复到遗忘前的状态。

核心思路：论文的核心思路是利用低秩适应（LoRA）方法进行遗忘。LoRA通过冻结预训练模型的大部分参数，仅训练少量低秩适配器，从而将遗忘更新集中在这些适配器中。由于适配器的参数更新相对集中且幅度更大，因此在经过量化后，这些更新更容易被保留，从而保证遗忘效果。

技术框架：整体框架包含以下步骤：1) 在预训练的LLM上添加LoRA适配器；2) 冻结LLM主体参数，仅训练LoRA适配器，使其学习遗忘目标知识；3) 对训练后的模型进行量化（如4比特量化）；4) 评估量化后模型的遗忘效果、效用和隐私泄露。主要模块包括：预训练LLM、LoRA适配器、遗忘训练模块、量化模块和评估模块。

关键创新：最重要的技术创新点在于将LoRA应用于LLM遗忘任务，并证明了其在量化环境下的鲁棒性。与全参数微调相比，LoRA能够更有效地保留遗忘更新，避免量化带来的信息损失。

关键设计：LoRA适配器的秩（rank）是一个关键参数，决定了适配器的容量和训练成本。论文可能需要探索不同的秩值，以找到在遗忘效果、模型效用和训练效率之间的最佳平衡点。此外，损失函数的设计也至关重要，需要同时考虑遗忘目标、模型效用和隐私保护。

📊 实验亮点

实验结果表明，在Llama-2-7B模型上，使用LoRA进行遗忘后，在4比特量化下，模型效用显著提升，例如在BOOKS数据集上，NPO+GDR指标从50.17提升到58.10，提升了7.93个点。同时，隐私泄露也显著降低，例如在BOOKS数据集上，GA+KLR指标从-25.68变为-5.86，更接近理想值0。这些结果表明，LoRA能够有效提升量化后LLM的遗忘效果和隐私保护能力。

🎯 应用场景

该研究成果可应用于对隐私和安全有严格要求的LLM部署场景，例如金融、医疗等领域。在这些场景中，模型需要具备遗忘特定敏感信息的能力，同时保持高效的推理速度。通过结合LoRA和量化技术，可以在保证模型性能的同时，有效降低隐私泄露的风险。

📄 摘要（原文）

Large Language Model (LLM) unlearning aims to remove targeted knowledge from a trained model, but practical deployments often require post-training quantization (PTQ) for efficient inference. However, aggressive low-bit PTQ can mask or erase unlearning updates, causing quantized models to revert to pre-unlearning behavior. We show that standard full-parameter fine-tuning often induce parameter changes that are too small to survive 4-bit quantization. We propose quantization-robust unlearning via low-rank adaptation (LoRA): we freeze the base model and concentrate unlearning into trainable adapters so that the effective update is preserved after quantization. On Llama-2-7B evaluated with MUSE dataset (BOOKS and NEWS), LoRA improves 4-bit utility by up to 7.93 points (NPO+GDR on BOOKS: 50.17 to 58.10) and yields higher 4-bit utility on NEWS for GA+GDR (40.06 to 44.82, increase of 4.76). LoRA also substantially reduces privacy leakage under 4-bit PTQ, e.g., for GA+KLR on BOOKS, PrivLeak moves from -25.68 to -5.86 (closer to ideal 0), while maintaining strong forgetting (VerMem and KnowMem near 0). Thus, using LoRA for Machine Unlearning is beneficial for scenarios where quantization is necessary for model deployment.

Quantization-Robust LLM Unlearning via Low-Rank Adaptation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理