Null-Space Constrained Low-Rank Adaptation for Response-Specified Large Language Model Unlearning

📄 arXiv: 2606.10989v1 📥 PDF

作者: Bocheng Ju, Jianhua Wang, Chengliang Liu, Xiaolin Chang

分类: cs.AI

发布日期: 2026-06-09


💡 一句话要点

提出Null-Space约束低秩适应以解决大语言模型的遗忘问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 遗忘机制 低秩适应 安全目标学习 知识抑制 模型可控性 投影约束

📋 核心要点

  1. 现有方法在抑制不良知识时,更新局部性受到较大限制,难以实现精确控制。
  2. NSRU通过使用安全目标响应和低秩参数化,精确指定遗忘行为并抑制不良内容。
  3. 实验表明,NSRU在抑制不良知识的同时,提升了模型的保留性能和实用性。

📝 摘要(中文)

大语言模型的遗忘旨在抑制指定的不良知识,同时保留良好的能力。许多遗忘目标集中在抑制不希望的答案上,而最近的目标引导变体则指定替换行为,但仍然在更新局部性上存在较大约束。本文提出了Null-Space约束响应指定遗忘(NSRU),这是一个用于控制LLM遗忘的投影约束低秩框架。NSRU使用明确结构的安全目标响应来指定每个遗忘查询的期望行为,同时抑制原始的不良内容。实验结果表明,NSRU有效抑制可提取的遗忘集知识,同时提高保留QA性能、模型效用和安全目标对齐。

🔬 方法详解

问题定义:本文解决大语言模型在遗忘特定不良知识时,如何有效控制更新局部性的问题。现有方法往往无法精确指定遗忘行为,导致不良知识难以抑制。

核心思路:NSRU的核心思路是通过引入安全目标响应,明确指定每个遗忘查询的期望行为,同时采用低秩参数化来限制更新在保留子空间的零空间内,从而实现更好的控制。

技术框架:NSRU的整体架构包括三个主要模块:安全目标学习、抑制不良响应和保留保留。通过对每个模块的优化,确保在约束参数化下实现目标。

关键创新:NSRU的主要创新在于引入了投影约束的低秩框架,能够在保留子空间内进行有效的更新,从而减少对保留知识的干扰,与现有方法相比具有显著的优势。

关键设计:在设计中,NSRU采用了明确的损失函数来平衡安全目标学习、抑制不良响应和保留损失,同时通过正交投影来实现低秩参数化,确保更新的稳定性和有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,NSRU在TOFU数据集上有效抑制了可提取的遗忘集知识,同时在保留QA性能上提升了约10%。在WMDP数据集上,NSRU保持了危险领域的准确性接近随机选择区域,同时保留了广泛和领域相邻的MMLU效用,展现了其优越性。

🎯 应用场景

该研究的潜在应用领域包括大语言模型的安全性和可控性,尤其是在需要删除特定知识或信息的场景中,如法律、医疗和金融等敏感领域。通过有效的遗忘机制,模型能够更好地适应动态变化的知识环境,提升用户信任和模型的实用性。

📄 摘要(原文)

Large language model unlearning aims to suppress designated undesirable knowledge while preserving benign capabilities. Many unlearning objectives focus on suppressing undesired answers, while recent target-guided variants specify replacement behavior but still leave update locality largely unconstrained. This paper introduces \emph{Null-Space Constrained Response-Specified Unlearning} (NSRU), a projection-constrained low-rank framework for controlled LLM unlearning. NSRU uses an explicitly structured safe target response to specify the desired behavior for each forget query, while suppressing the original undesired content. To localize adaptation, NSRU estimates per-module retain subspaces from benign hidden representations and uses an orthogonal-projected low-rank parameterization to confine LoRA updates to the null space of the retain subspace. The resulting objective jointly optimizes safe-target learning, undesired-response suppression, and retention preservation under this constrained parameterization. We provide a local first-order analysis showing that the projected update reduces retain-side perturbations while preserving editable directions for shaping forget-query behavior. Experiments on TOFU show that NSRU effectively suppresses extractable forget-set knowledge while improving retain QA performance, model utility, and safe-target alignment over representative baselines. On WMDP, NSRU keeps hazardous-domain accuracy near the random-choice region while preserving broad and domain-adjacent MMLU utility. Ablation studies support the complementary roles of safe-target supervision, undesired-response suppression, retention loss, and null-space projected updates, while sensitivity and robustness analyses indicate stable behavior across the tested hyperparameter and prompt variations.