Wisdom is Knowing What not to Say: Hallucination-Free LLMs Unlearning via Attention Shifting
作者: Chenchen Tan, Youyang Qu, Xinghao Li, Hui Zhang, Shujie Cui, Cunjian Chen, Longxiang Gao
分类: cs.CL
发布日期: 2025-10-20 (更新: 2025-11-01)
备注: 22 pages, 10 figures
💡 一句话要点
提出Attention-Shifting框架,实现LLM在知识密集型应用中无幻觉的定向遗忘。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 机器遗忘 注意力机制 选择性遗忘 知识表示 模型泛化 幻觉抑制
📋 核心要点
- 现有LLM遗忘方法在模型效用和避免幻觉之间存在trade-off,限制了其在知识密集型场景的应用。
- 提出Attention-Shifting框架,通过上下文保持抑制和抗幻觉响应塑造,实现选择性遗忘。
- 实验表明,该方法在ToFU和TDEC基准测试中,相比现有方法,准确率分别提升高达15%和10%。
📝 摘要(中文)
大型语言模型(LLM)的应用日益广泛,但也带来了敏感数据泄露的风险,促使了对机器遗忘的研究。然而,现有的遗忘方法面临两难:激进的遗忘损害模型效用,保守的策略则保留效用但可能产生幻觉。这严重限制了LLM在知识密集型应用中的可靠性。为了解决这个问题,我们提出了一种新颖的Attention-Shifting(AS)框架,用于选择性遗忘。AS由两个设计目标驱动:(1)上下文保持抑制,衰减对携带事实信息的token的注意力,而不破坏LLM的语言结构;(2)抗幻觉响应塑造,抑制在查询遗忘内容时产生的虚假补全。AS通过两种注意力层面的干预来实现这些目标:对遗忘集应用重要性感知抑制,以减少对记忆知识的依赖;以及注意力引导的保留增强,加强对保留数据集中语义上重要token的注意力,以减轻意外的性能下降。这两个组件通过双重损失目标联合优化,形成一个软边界,在表示叠加下定位遗忘,同时保留不相关的知识。实验结果表明,AS优于最先进的遗忘方法,在ToFU基准测试中实现了高达15%的准确率提升,在TDEC基准测试中实现了10%的提升,同时保持了具有竞争力的无幻觉遗忘效果。与现有方法相比,AS在遗忘效果、泛化性和响应可靠性之间表现出更好的平衡。
🔬 方法详解
问题定义:现有LLM的遗忘方法要么过于激进,导致模型性能下降;要么过于保守,无法有效遗忘特定知识,容易产生幻觉,即生成不真实或不准确的内容。这使得LLM在需要遗忘敏感信息,同时保持知识应用能力的场景中面临挑战。现有方法的痛点在于无法在遗忘效果、模型效用和避免幻觉之间取得平衡。
核心思路:论文的核心思路是通过调整LLM的注意力机制,实现对特定知识的选择性遗忘,同时尽可能保留模型的通用能力。具体来说,通过降低模型对需要遗忘的知识的关注度,并增强对保留知识的关注度,从而实现既能有效遗忘,又能避免幻觉的目的。这种设计旨在利用注意力机制的可塑性,在不完全删除模型参数的情况下,改变模型对知识的利用方式。
技术框架:Attention-Shifting (AS) 框架包含两个主要模块:1) 重要性感知抑制(Importance-aware Suppression):针对遗忘数据集,降低模型对其中包含事实信息的token的注意力。2) 注意力引导的保留增强(Attention-guided Retention Enhancement):针对保留数据集,增强模型对语义重要token的注意力。这两个模块通过一个双重损失函数联合优化,从而在遗忘特定知识的同时,保留模型的通用能力。
关键创新:该方法最重要的创新点在于其对注意力机制的精细控制,通过在注意力层面进行干预,实现了选择性的知识遗忘。与传统的参数删除或微调方法不同,AS框架并不直接修改模型参数,而是通过调整注意力权重来改变模型对知识的利用方式。这种方法能够在遗忘特定知识的同时,更好地保留模型的通用能力,并减少幻觉的产生。与现有方法的本质区别在于,AS框架关注的是如何引导模型“忘记”某些知识,而不是直接“删除”这些知识。
关键设计:双重损失函数是关键设计之一,它同时考虑了遗忘效果和模型效用。具体来说,该损失函数包含两部分:一部分用于衡量模型在遗忘数据集上的表现,另一部分用于衡量模型在保留数据集上的表现。通过调整这两部分的权重,可以控制遗忘的强度和模型效用的保留程度。另一个关键设计是重要性感知抑制模块,该模块根据token的重要性来调整注意力权重,从而更有效地抑制对关键信息的关注。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Attention-Shifting框架在ToFU和TDEC基准测试中,相比现有最先进的遗忘方法,准确率分别提升高达15%和10%,同时保持了具有竞争力的无幻觉遗忘效果。这表明该方法在遗忘效果、模型效用和避免幻觉之间取得了更好的平衡。此外,实验还验证了该方法在泛化性和响应可靠性方面的优势。
🎯 应用场景
该研究成果可应用于各种需要保护用户隐私和数据安全的场景,例如:金融、医疗等领域。在这些领域,LLM可能需要处理包含敏感信息的文本数据。通过使用该方法,可以在不损害模型性能的前提下,有效地遗忘这些敏感信息,从而保护用户隐私。此外,该方法还可以用于消除LLM中的偏见和不准确信息,提高模型的可靠性和安全性。
📄 摘要(原文)
The increase in computing power and the necessity of AI-assisted decision-making boost the growing application of large language models (LLMs). Along with this, the potential retention of sensitive data of LLMs has spurred increasing research into machine unlearning. However, existing unlearning approaches face a critical dilemma: Aggressive unlearning compromises model utility, while conservative strategies preserve utility but risk hallucinated responses. This significantly limits LLMs' reliability in knowledge-intensive applications. To address this, we introduce a novel Attention-Shifting (AS) framework for selective unlearning. AS is driven by two design objectives: (1) context-preserving suppression that attenuates attention to fact-bearing tokens without disrupting LLMs' linguistic structure; and (2) hallucination-resistant response shaping that discourages fabricated completions when queried about unlearning content. AS realizes these objectives through two attention-level interventions, which are importance-aware suppression applied to the unlearning set to reduce reliance on memorized knowledge and attention-guided retention enhancement that reinforces attention toward semantically essential tokens in the retained dataset to mitigate unintended degradation. These two components are jointly optimized via a dual-loss objective, which forms a soft boundary that localizes unlearning while preserving unrelated knowledge under representation superposition. Experimental results show that AS improves performance preservation over the state-of-the-art unlearning methods, achieving up to 15% higher accuracy on the ToFU benchmark and 10% on the TDEC benchmark, while maintaining competitive hallucination-free unlearning effectiveness. Compared to existing methods, AS demonstrates a superior balance between unlearning effectiveness, generalization, and response reliability.