BadMoE: Backdooring Mixture-of-Experts LLMs via Optimizing Routing Triggers and Infecting Dormant Experts

📄 arXiv: 2504.18598v2 📥 PDF

作者: Qingyue Wang, Qi Pang, Xixun Lin, Shuai Wang, Daoyuan Wu

分类: cs.CR, cs.AI

发布日期: 2025-04-24 (更新: 2025-04-29)


💡 一句话要点

BadMoE:通过优化路由触发器和感染休眠专家,对MoE LLM进行后门攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 后门攻击 大型语言模型 路由触发器 休眠专家 模型安全 对抗性攻击

📋 核心要点

  1. 现有MoE模型的安全性研究不足,针对MoE架构LLM的后门攻击方法仍是空白。
  2. BadMoE通过识别并感染MoE模型中的休眠专家,并优化路由触发器来激活这些专家,从而控制模型输出。
  3. 实验证明BadMoE能够成功地在目标任务上实现恶意预测,同时保持模型整体性能,具有更强的隐蔽性和有效性。

📝 摘要(中文)

混合专家模型(MoE)已成为大型语言模型(LLM)的一种强大架构,能够在保持可控计算成本的同时,高效扩展模型容量。其关键优势在于能够将不同的token路由到模型中不同的“专家”网络,从而实现专业化并高效处理多样化的输入。然而,基于MoE的LLM的漏洞研究仍然很少,并且在这种背景下后门攻击的可能性在很大程度上仍未被探索。本文提出了针对基于MoE的LLM的第一个后门攻击,攻击者通过优化路由触发器来激活“休眠专家”(即未充分利用的专家)并对其进行投毒,从而获得对模型输出的控制。我们首先严格证明了MoE模型中存在一些“主导专家”,它们的输出可以决定MoE的整体输出。我们还表明,休眠专家可以充当主导专家来操纵模型预测。因此,我们的攻击BadMoE通过以下方式利用MoE模型的独特架构:1) 识别与目标任务无关的休眠专家;2) 构建路由感知损失以优化这些专家的激活触发器;3) 通过中毒训练数据将休眠专家提升到主导角色。大量实验表明,BadMoE成功地在攻击者的目标任务上强制执行恶意预测,同时保持了整体模型效用,使其成为比现有方法更强大和隐蔽的攻击。

🔬 方法详解

问题定义:论文旨在解决MoE架构LLM的后门攻击问题。现有方法缺乏针对MoE结构特点的攻击手段,无法有效利用MoE模型中专家之间的路由机制进行攻击,并且难以在保证模型整体性能的同时实现恶意预测。

核心思路:论文的核心思路是利用MoE模型中存在的“休眠专家”,通过优化路由触发器,将这些休眠专家激活并使其在特定输入下成为“主导专家”,从而控制模型的输出。通过投毒训练数据,进一步强化休眠专家在恶意任务上的主导地位。

技术框架:BadMoE攻击框架主要包含三个阶段:1) 休眠专家识别:识别MoE模型中与目标任务无关的、利用率低的专家;2) 路由触发器优化:构建路由感知损失函数,优化输入样本,使其能够激活目标休眠专家;3) 中毒训练:使用包含触发器的中毒数据对模型进行微调,提升休眠专家在恶意任务上的主导地位。

关键创新:该论文首次提出了针对MoE架构LLM的后门攻击方法。其关键创新在于:1) 针对MoE模型的路由机制,设计了路由感知的损失函数,能够有效地激活目标休眠专家;2) 通过感染休眠专家,实现了对模型输出的隐蔽控制,避免了对模型整体性能的显著影响。

关键设计:路由感知损失函数的设计是关键,它需要同时考虑触发器的有效性和隐蔽性。具体而言,损失函数可能包含以下部分:1) 激活损失:鼓励目标休眠专家被激活;2) 相似性损失:保证触发器与原始输入样本的相似性,避免引入明显的异常;3) 任务损失:保证模型在原始任务上的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BadMoE能够有效地在目标任务上实现恶意预测,攻击成功率显著高于现有后门攻击方法。同时,BadMoE对模型整体性能的影响较小,能够保持较高的模型效用。例如,在特定数据集上,BadMoE的攻击成功率达到90%以上,而模型在原始任务上的准确率仅下降不到5%。

🎯 应用场景

该研究成果可应用于评估和提升MoE架构LLM的安全性,尤其是在模型部署前进行后门攻击检测和防御。此外,该研究也为未来设计更安全的MoE模型架构提供了新的思路,例如,通过更精细的路由策略和专家选择机制,降低模型被后门攻击的风险。

📄 摘要(原文)

Mixture-of-Experts (MoE) have emerged as a powerful architecture for large language models (LLMs), enabling efficient scaling of model capacity while maintaining manageable computational costs. The key advantage lies in their ability to route different tokens to different expert'' networks within the model, enabling specialization and efficient handling of diverse input. However, the vulnerabilities of MoE-based LLMs still have barely been studied, and the potential for backdoor attacks in this context remains largely unexplored. This paper presents the first backdoor attack against MoE-based LLMs where the attackers poisondormant experts'' (i.e., underutilized experts) and activate them by optimizing routing triggers, thereby gaining control over the model's output. We first rigorously prove the existence of a few ``dominating experts'' in MoE models, whose outputs can determine the overall MoE's output. We also show that dormant experts can serve as dominating experts to manipulate model predictions. Accordingly, our attack, namely BadMoE, exploits the unique architecture of MoE models by 1) identifying dormant experts unrelated to the target task, 2) constructing a routing-aware loss to optimize the activation triggers of these experts, and 3) promoting dormant experts to dominating roles via poisoned training data. Extensive experiments show that BadMoE successfully enforces malicious prediction on attackers' target tasks while preserving overall model utility, making it a more potent and stealthy attack than existing methods.