BalDRO: A Distributionally Robust Optimization based Framework for Large Language Model Unlearning
作者: Pengyang Shao, Naixin Zhai, Lei Chen, Yonghui Yang, Fengbin Zhu, Xun Yang, Meng Wang
分类: cs.LG
发布日期: 2026-01-14
💡 一句话要点
提出BalDRO框架,通过分布鲁棒优化实现大语言模型均衡遗忘。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 模型遗忘 分布鲁棒优化 均衡遗忘 深度学习
📋 核心要点
- 现有LLM遗忘方法面临样本遗忘难度不均衡的问题,导致遗忘效果参差不齐。
- BalDRO框架通过min-sup优化,寻找最难遗忘的样本分布,并以此更新模型参数。
- 实验表明,BalDRO在TOFU和MUSE数据集上显著提升了遗忘质量和模型效用。
📝 摘要(中文)
随着大型语言模型(LLMs)日益影响在线内容,从训练好的LLMs中移除特定信息(即LLM遗忘)对于网络治理至关重要。一个关键挑战在于遗忘集合内的样本不平衡:不同样本的遗忘难度差异很大,导致异步遗忘,即某些知识未被充分擦除,而另一些知识则被过度遗忘。为了解决这个问题,我们提出了BalDRO,一个用于平衡LLM遗忘的新颖而高效的框架。BalDRO将遗忘过程建模为一个min-sup过程:内部步骤识别最坏情况的数据分布,该分布强调难以遗忘的样本,而外部步骤根据该分布更新模型参数。我们通过两种有效的变体实例化BalDRO:BalDRO-G,一种基于离散GroupDRO的近似方法,侧重于高损失子集;以及BalDRO-DV,一种连续的Donsker-Varadhan对偶方法,可在标准训练流程中实现平滑的自适应加权。在TOFU和MUSE上的实验表明,BalDRO在遗忘质量和模型效用方面均显著优于现有方法,并且我们发布了代码以供重现。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)遗忘过程中的样本不平衡问题。现有方法在处理遗忘请求时,未能充分考虑不同样本的遗忘难度差异,导致部分知识残留,而另一部分知识过度擦除,影响模型整体性能。这种异步遗忘现象是现有方法的主要痛点。
核心思路:BalDRO的核心思路是将LLM遗忘问题建模为一个分布鲁棒优化(Distributionally Robust Optimization, DRO)问题。通过寻找一个“最坏情况”的数据分布,该分布会放大难以遗忘的样本的权重,从而迫使模型更加关注这些难样本,实现更均衡的遗忘效果。这种方法旨在最小化模型在最不利数据分布下的损失,从而提高遗忘的鲁棒性。
技术框架:BalDRO框架包含两个主要步骤:内部步骤(Inner Step)和外部步骤(Outer Step)。内部步骤负责识别最坏情况的数据分布,即找到一个能够最大化模型损失的样本权重分布。外部步骤则根据内部步骤确定的分布,更新模型的参数,以最小化在该分布下的损失。框架通过迭代执行这两个步骤,不断优化模型的遗忘效果。论文提出了两种BalDRO的变体:BalDRO-G和BalDRO-DV,分别采用离散和连续的方式近似求解DRO问题。
关键创新:BalDRO的关键创新在于将分布鲁棒优化引入到LLM遗忘领域,并针对遗忘任务的特点设计了相应的优化策略。与现有方法相比,BalDRO能够自适应地调整样本权重,更加关注难遗忘的样本,从而实现更均衡和有效的遗忘。此外,BalDRO-DV通过Donsker-Varadhan对偶方法,实现了在标准训练流程中的平滑自适应加权,降低了实现难度。
关键设计:BalDRO-G采用GroupDRO的思想,将样本划分为不同的组,并为每个组分配一个权重。通过优化组权重,找到最能放大难遗忘样本的组。BalDRO-DV则采用Donsker-Varadhan对偶表示,将DRO问题转化为一个无约束优化问题,可以通过标准的梯度下降算法求解。损失函数的设计目标是最小化模型在最坏情况分布下的损失,同时保持模型的泛化能力。具体参数设置需要根据具体的LLM和数据集进行调整。
📊 实验亮点
实验结果表明,BalDRO在TOFU和MUSE数据集上均优于现有遗忘方法。例如,在TOFU数据集上,BalDRO在保持模型效用的前提下,显著降低了模型对遗忘数据的记忆程度。BalDRO-G和BalDRO-DV两种变体均表现出良好的性能,验证了该框架的有效性和灵活性。
🎯 应用场景
BalDRO框架可应用于各种需要从大型语言模型中移除特定信息的场景,例如:删除个人隐私数据以符合法规要求,移除模型中的有害或不准确信息,以及更新模型知识以适应新的信息环境。该研究有助于提升LLM的可控性和安全性,促进其在更广泛领域的应用。
📄 摘要(原文)
As Large Language Models (LLMs) increasingly shape online content, removing targeted information from well-trained LLMs (also known as LLM unlearning) has become critical for web governance. A key challenge lies in sample-wise imbalance within the forget set: different samples exhibit widely varying unlearning difficulty, leading to asynchronous forgetting where some knowledge remains insufficiently erased while others become over-forgotten. To address this, we propose BalDRO, a novel and efficient framework for balanced LLM unlearning. BalDRO formulates unlearning as a min-sup process: an inner step identifies a worst-case data distribution that emphasizes hard-to-unlearn samples, while an outer step updates model parameters under this distribution. We instantiate BalDRO via two efficient variants: BalDRO-G, a discrete GroupDRO-based approximation focusing on high-loss subsets, and BalDRO-DV, a continuous Donsker-Varadhan dual method enabling smooth adaptive weighting within standard training pipelines. Experiments on TOFU and MUSE show that BalDRO significantly improves both forgetting quality and model utility over existing methods, and we release code for reproducibility.