Routing-Aware Expert Calibration for Machine Unlearning in Mixture-of-Experts Language Models

作者: Jingyi Xie, Yijun Lin, Yinjiang Xiong, Zhikun Zhang, Sai Li

分类: cs.CL, cs.AI

发布日期: 2026-06-09

💡 一句话要点

提出TRACE以解决Mixture-of-Experts模型中的机器遗忘问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器遗忘 Mixture-of-Experts 语言模型 专家校准 激活频率 数据隐私 深度学习

📋 核心要点

现有的机器遗忘方法在Mixture-of-Experts架构中存在不足，尤其是在专家激活不均衡的情况下。
本文提出TRACE方法，通过检测遗忘关键专家并重新加权保留损失，解决了遗忘与保留激活不匹配的问题。
实验结果显示，TRACE在WMDP和MUSE-BOOKS数据集上相较于最强基线提升了9%的相对效用，并在多个指标上表现最佳。

📝 摘要（中文）

机器遗忘在大型语言模型中越来越重要，但在Mixture-of-Experts（MoE）架构中的遗忘问题尚未得到充分研究。与密集模型不同，MoE架构在每一层使用路由器将每个token分配给稀疏的专家子集。本文观察到，遗忘数据往往不成比例地激活少量专家，而这些专家可能从保留数据中获得的激活较弱。这种遗忘-保留路由不匹配可能导致遗忘关键专家在遗忘过程中缺乏正则化。为了解决这一问题，本文提出了TRACE（Targeted Routing-Aware Calibration of Experts），通过离线激活统计检测遗忘关键专家，并通过重新加权token级别的保留损失来校准保留正则化，从而使每个选定专家的保留侧激活频率更好地匹配其遗忘侧对应值。实验结果表明，TRACE在多个MoE LLM上显著改善了遗忘-效用权衡，较强基线提升了9%的相对效用。

🔬 方法详解

问题定义：本文旨在解决Mixture-of-Experts（MoE）架构中机器遗忘的挑战，现有方法在处理遗忘数据时，专家激活不均衡，导致遗忘关键专家缺乏正则化。

核心思路：TRACE方法的核心思想是通过离线激活统计检测遗忘关键专家，并通过重新加权保留损失来校准保留正则化，以确保每个专家的激活频率在遗忘和保留数据中保持一致。

技术框架：TRACE的整体架构包括两个主要模块：首先是专家检测模块，通过分析激活统计识别遗忘关键专家；其次是损失校准模块，通过重新加权保留损失来调整专家的激活频率。

关键创新：TRACE的创新点在于针对MoE架构的遗忘问题，提出了路由感知的专家校准方法，显著改善了遗忘与保留之间的激活不匹配问题，区别于传统方法的单一激活策略。

关键设计：TRACE在损失函数设计上引入了动态加权机制，确保每个专家在保留数据中的激活频率与遗忘数据相匹配，具体参数设置和网络结构细节在实验中进行了验证和优化。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TRACE在多个MoE LLM上显著改善了遗忘-效用权衡，较强基线提升了9%的相对效用，并在MUSE-BOOKS的四个指标中取得了三个指标的最佳性能，展示了其有效性。

🎯 应用场景

该研究的潜在应用领域包括大型语言模型的训练与优化，尤其是在需要处理用户隐私和数据删除的场景中。TRACE方法能够有效提升模型的遗忘能力，确保在删除特定信息时不会影响模型的整体性能，具有重要的实际价值和未来影响。

📄 摘要（原文）

Machine unlearning is increasingly important for large language models, yet unlearning in Mixture-of-Experts (MoE) architectures remains underexplored. Unlike dense models, MoE architectures employ a router at each layer to assign each token to a sparse subset of experts. In this work, we observe that forget data often activates a small subset of experts disproportionately, while these experts may receive much weaker activation from retain data. This forget--retain routing mismatch can leave forget-critical experts under-regularized during unlearning. To address this, we propose \textbf{TRACE}, Targeted Routing-Aware Calibration of Experts, for MoE unlearning. TRACE first detects forget-critical experts from offline activation statistics, and then calibrates retain regularization by reweighting token-level retain losses so that each selected expert's retain-side activation frequency better matches its forget-side counterpart. Experiments on WMDP and MUSE-BOOKS across multiple MoE LLMs show that TRACE consistently improves the forget-utility trade-off, yielding a 9\% relative utility improvement over the strongest baseline under comparable forgetting quality and the best performance on three out of four MUSE-BOOKS metrics.

Routing-Aware Expert Calibration for Machine Unlearning in Mixture-of-Experts Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理