Harmonizing Multi-Objective LLM Unlearning via Unified Domain Representation and Bidirectional Logit Distillation

📄 arXiv: 2604.15482v1 📥 PDF

作者: Yisheng Zhong, Sijia Liu, Zhuangdi Zhu

分类: cs.LG, cs.AI

发布日期: 2026-04-16


💡 一句话要点

提出基于统一领域表示和双向Logit蒸馏的多目标LLM不可学习框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM不可学习 多目标优化 领域对齐 双向蒸馏 对抗鲁棒性

📋 核心要点

  1. 现有LLM不可学习方法侧重于有效性和效用保持,忽略了鲁棒性和边界行为,扩展到多目标场景易导致任务干扰。
  2. 论文提出一种多目标不可学习框架,通过统一数据表示减少领域差距,并采用双向蒸馏协调多个目标。
  3. 理论分析和实验结果表明,该方法能够对齐领域分布,实现协同优化,并在多个指标上达到SOTA性能。

📝 摘要(中文)

大型语言模型(LLM)的不可学习性对于从模型中移除有害或泄露隐私的信息至关重要。实用的LLM不可学习需要同时满足多个具有挑战性的目标:移除不期望的知识,保持通用能力,避免过度拒绝相邻概念,以及确保对抗探测攻击的鲁棒性。然而,现有的不可学习方法主要关注这些目标中的有限子集,通常是不可学习的有效性和效用保持,而忽略了鲁棒性和边界行为。简单地将这些方法扩展到多目标设置可能导致不可学习任务的干扰。我们提出了一种新的多目标不可学习框架,通过数据和优化协同设计来协调多个不可学习目标:我们将训练语料库标准化为统一的数据表示以减少领域差距,然后引入一种双向蒸馏方法,该方法同时从上下文指导的教师模型中引出期望的行为,同时抑制学生模型中不期望的行为。理论和实证分析表明,我们的方法对齐了领域分布,并将看似不相关的不可学习任务转化为协同优化。评估表明了最先进的性能,从而能够在各种具有挑战性的需求中实现平衡和可靠的不可学习。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)不可学习方法通常只关注移除有害知识和保持模型通用能力这两个目标,而忽略了模型在对抗攻击下的鲁棒性以及对相邻概念的合理拒绝。直接将这些方法扩展到多目标场景会导致不同不可学习任务之间的相互干扰,难以实现所有目标的平衡。

核心思路:论文的核心思路是通过数据和优化协同设计来协调多个不可学习目标。具体来说,首先将训练数据转换为统一的领域表示,以减少不同任务之间的领域差异。然后,利用双向蒸馏方法,同时从教师模型中学习期望行为,并抑制学生模型中的不期望行为,从而实现多目标的协同优化。

技术框架:该框架包含两个主要组成部分:统一数据表示和双向Logit蒸馏。首先,将不同来源和格式的训练数据转换为统一的表示形式,例如使用特定的prompt模板。然后,利用一个预训练的教师模型,通过上下文指导来生成期望的行为。最后,使用双向Logit蒸馏方法,同时让学生模型的输出logits接近教师模型的期望logits,并远离不期望的logits。

关键创新:该方法最重要的创新点在于提出了一个统一的数据表示方法,可以将不同的不可学习任务转换为相似的领域,从而减少任务之间的干扰。此外,双向Logit蒸馏方法能够同时学习期望行为和抑制不期望行为,从而实现多目标的平衡。

关键设计:统一数据表示的关键在于选择合适的prompt模板,使得不同任务的数据能够以一致的方式呈现。双向Logit蒸馏的关键在于设计合适的损失函数,既要保证学生模型能够学习教师模型的期望行为,又要能够抑制不期望行为。具体的损失函数可以包括KL散度、交叉熵等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个不可学习任务上都取得了最先进的性能。例如,在移除特定知识的同时,能够更好地保持模型的通用能力,并显著提高模型在对抗攻击下的鲁棒性。与现有方法相比,该方法能够在多个目标之间实现更好的平衡,从而提供更可靠的不可学习效果。

🎯 应用场景

该研究成果可应用于各种需要从大型语言模型中移除特定信息或行为的场景,例如删除模型中的偏见、防止模型泄露隐私数据、以及提高模型在对抗攻击下的鲁棒性。这对于构建安全、可靠和负责任的AI系统具有重要意义,尤其是在金融、医疗等敏感领域。

📄 摘要(原文)

Large Language Models (LLMs) unlearning is crucial for removing hazardous or privacy-leaking information from the model. Practical LLM unlearning demands satisfying multiple challenging objectives simultaneously: removing undesirable knowledge, preserving general utility, avoiding over-refusal of neighboring concepts, and, crucially, ensuring robustness against adversarial probing attacks. However, existing unlearning methods primarily focus on a limited subset of these goals, typically unlearning efficacy and utility preservation while overlooking robustness and boundary behaviors. Naively extending these methods to multi-objective settings may lead to unlearning task interference. We propose a novel multi-objective unlearning framework that harmonizes multiple unlearning objectives through a data and optimization co-design: We standardize training corpora into a unified data representation to reduce the domain gap, and then introduce a bidirectional distillation method that simultaneously elicits desired behavior from a context-instructed teacher while suppressing undesirable behavior in the student model. Theoretical and empirical analyses show that our method aligns domain distributions and converts seemingly irrelevant unlearning tasks into cooperative optimization. Evaluation demonstrates state-of-the-art performance, which enables balanced and reliable unlearning across diverse, challenging requirements.