Routing-Aware Expert Calibration for Machine Unlearning in Mixture-of-Experts Language Models

📄 arXiv: 2606.10338v1 📥 PDF

作者: Jingyi Xie, Yijun Lin, Yinjiang Xiong, Zhikun Zhang, Sai Li

分类: cs.CL, cs.AI

发布日期: 2026-06-09


💡 一句话要点

提出TRACE以解决Mixture-of-Experts模型中的机器遗忘问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器遗忘 Mixture-of-Experts 语言模型 专家校准 激活频率 数据隐私 深度学习

📋 核心要点

  1. 现有的机器遗忘方法在Mixture-of-Experts架构中存在不足,尤其是在专家激活不均衡的情况下。
  2. 本文提出TRACE方法,通过检测遗忘关键专家并重新加权保留损失,解决了遗忘与保留激活不匹配的问题。
  3. 实验结果显示,TRACE在WMDP和MUSE-BOOKS数据集上相较于最强基线提升了9%的相对效用,并在多个指标上表现最佳。

📝 摘要(中文)

机器遗忘在大型语言模型中越来越重要,但在Mixture-of-Experts(MoE)架构中的遗忘问题尚未得到充分研究。与密集模型不同,MoE架构在每一层使用路由器将每个token分配给稀疏的专家子集。本文观察到,遗忘数据往往不成比例地激活少量专家,而这些专家可能从保留数据中获得的激活较弱。这种遗忘-保留路由不匹配可能导致遗忘关键专家在遗忘过程中缺乏正则化。为了解决这一问题,本文提出了TRACE(Targeted Routing-Aware Calibration of Experts),通过离线激活统计检测遗忘关键专家,并通过重新加权token级别的保留损失来校准保留正则化,从而使每个选定专家的保留侧激活频率更好地匹配其遗忘侧对应值。实验结果表明,TRACE在多个MoE LLM上显著改善了遗忘-效用权衡,较强基线提升了9%的相对效用。

🔬 方法详解

问题定义:本文旨在解决Mixture-of-Experts(MoE)架构中机器遗忘的挑战,现有方法在处理遗忘数据时,专家激活不均衡,导致遗忘关键专家缺乏正则化。

核心思路:TRACE方法的核心思想是通过离线激活统计检测遗忘关键专家,并通过重新加权保留损失来校准保留正则化,以确保每个专家的激活频率在遗忘和保留数据中保持一致。

技术框架:TRACE的整体架构包括两个主要模块:首先是专家检测模块,通过分析激活统计识别遗忘关键专家;其次是损失校准模块,通过重新加权保留损失来调整专家的激活频率。

关键创新:TRACE的创新点在于针对MoE架构的遗忘问题,提出了路由感知的专家校准方法,显著改善了遗忘与保留之间的激活不匹配问题,区别于传统方法的单一激活策略。

关键设计:TRACE在损失函数设计上引入了动态加权机制,确保每个专家在保留数据中的激活频率与遗忘数据相匹配,具体参数设置和网络结构细节在实验中进行了验证和优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TRACE在多个MoE LLM上显著改善了遗忘-效用权衡,较强基线提升了9%的相对效用,并在MUSE-BOOKS的四个指标中取得了三个指标的最佳性能,展示了其有效性。

🎯 应用场景

该研究的潜在应用领域包括大型语言模型的训练与优化,尤其是在需要处理用户隐私和数据删除的场景中。TRACE方法能够有效提升模型的遗忘能力,确保在删除特定信息时不会影响模型的整体性能,具有重要的实际价值和未来影响。

📄 摘要(原文)

Machine unlearning is increasingly important for large language models, yet unlearning in Mixture-of-Experts (MoE) architectures remains underexplored. Unlike dense models, MoE architectures employ a router at each layer to assign each token to a sparse subset of experts. In this work, we observe that forget data often activates a small subset of experts disproportionately, while these experts may receive much weaker activation from retain data. This forget--retain routing mismatch can leave forget-critical experts under-regularized during unlearning. To address this, we propose \textbf{TRACE}, Targeted Routing-Aware Calibration of Experts, for MoE unlearning. TRACE first detects forget-critical experts from offline activation statistics, and then calibrates retain regularization by reweighting token-level retain losses so that each selected expert's retain-side activation frequency better matches its forget-side counterpart. Experiments on WMDP and MUSE-BOOKS across multiple MoE LLMs show that TRACE consistently improves the forget-utility trade-off, yielding a 9\% relative utility improvement over the strongest baseline under comparable forgetting quality and the best performance on three out of four MUSE-BOOKS metrics.