AILS-NTUA at SemEval-2025 Task 4: Parameter-Efficient Unlearning for Large Language Models using Data Chunking

📄 arXiv: 2503.02443v1 📥 PDF

作者: Iraklis Premptis, Maria Lymperaiou, Giorgos Filandrianos, Orfeas Menis Mastromichalakis, Athanasios Voulodimos, Giorgos Stamou

分类: cs.CL

发布日期: 2025-03-04

期刊: The 19th International Workshop on Semantic Evaluation (SemEval 2025) - Best paper award


💡 一句话要点

提出基于数据分块的参数高效LLM遗忘方法,解决敏感内容移除问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 遗忘学习 参数高效微调 低秩适应 数据分块

📋 核心要点

  1. 现有LLM难以在不影响通用知识的前提下,有效移除训练数据中的特定敏感内容。
  2. 利用LoRA和层聚焦微调实现参数高效的梯度遗忘,降低计算成本并加速遗忘过程。
  3. 通过数据分块和循环采样保留数据,提升遗忘效果,并在遗忘和保留之间取得良好平衡。

📝 摘要(中文)

本文针对大型语言模型中敏感内容遗忘问题,提出了一种参数高效的、基于梯度的遗忘方法。该方法利用低秩(LoRA)适应和层聚焦微调实现参数高效性。为了进一步提升遗忘效果,采用了数据分块策略,将需要遗忘的数据分割成不相交的子集,并以预定义的比例与循环采样的保留数据合并。该方法与任务无关,实现了出色的遗忘-保留平衡,在排行榜上名列前茅,显著优于基线方法和竞争系统。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)中敏感内容的遗忘问题。现有方法在遗忘特定数据点时,往往会对模型的通用知识造成较大损害,或者需要大量的计算资源和时间。因此,如何在保证遗忘效果的同时,尽可能保留模型的通用能力,并降低计算成本,是本文要解决的关键问题。

核心思路:论文的核心思路是利用参数高效的微调方法(LoRA)和数据分块策略,实现高效且有效的遗忘。LoRA通过引入低秩矩阵来更新模型参数,减少了需要训练的参数量,从而降低了计算成本。数据分块则通过将遗忘数据分成多个子集,并与保留数据混合训练,增强了遗忘效果,并有助于模型更好地保留通用知识。

技术框架:整体框架包括以下几个主要步骤:1) 使用LoRA对预训练的LLM进行微调,使其适应特定任务。2) 将需要遗忘的数据分割成多个不相交的块(chunks)。3) 对于每个遗忘数据块,与循环采样的保留数据以预定义的比例合并。4) 使用合并后的数据对模型进行微调,以实现遗忘。5) 评估遗忘效果和保留效果。

关键创新:论文的关键创新在于将参数高效的微调方法(LoRA)与数据分块策略相结合,用于LLM的遗忘任务。这种结合使得遗忘过程更加高效,并且能够在遗忘效果和保留效果之间取得更好的平衡。此外,层聚焦微调也是一个创新点,它允许针对不同的层进行不同程度的微调,从而更好地控制遗忘过程。

关键设计:关键设计包括:1) LoRA的秩(rank)的选择,需要根据具体任务和模型大小进行调整。2) 数据分块的大小和数量,需要根据遗忘数据的规模和分布进行调整。3) 遗忘数据和保留数据的比例,需要根据遗忘目标和保留目标进行调整。4) 层聚焦微调中,不同层的学习率设置,需要根据层的敏感程度进行调整。损失函数采用标准的交叉熵损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在SemEval-2025 Task 4的排行榜上名列第一,显著优于基线方法和竞争系统,证明了其在遗忘效果和保留效果方面的优越性。具体性能数据未知,但摘要强调了其在forget-retain平衡方面的突出表现。

🎯 应用场景

该研究成果可应用于各种需要保护用户隐私或遵守数据法规的场景,例如:在线教育平台可以移除包含学生个人信息的训练数据;金融机构可以移除包含敏感交易记录的训练数据;社交媒体平台可以移除包含仇恨言论或虚假信息的训练数据。该方法有助于构建更加安全、可靠和负责任的AI系统。

📄 摘要(原文)

The Unlearning Sensitive Content from Large Language Models task aims to remove targeted datapoints from trained models while minimally affecting their general knowledge. In our work, we leverage parameter-efficient, gradient-based unlearning using low-rank (LoRA) adaptation and layer-focused fine-tuning. To further enhance unlearning effectiveness, we employ data chunking, splitting forget data into disjoint partitions and merging them with cyclically sampled retain samples at a pre-defined ratio. Our task-agnostic method achieves an outstanding forget-retain balance, ranking first on leaderboards and significantly outperforming baselines and competing systems.