RepetitionCurse: Measuring and Understanding Router Imbalance in Mixture-of-Experts LLMs under DoS Stress

📄 arXiv: 2512.23995v1 📥 PDF

作者: Ruixuan Huang, Qingyue Wang, Hantao Huang, Yudong Gao, Dong Chen, Shuai Wang, Wei Wang

分类: cs.CR, cs.LG

发布日期: 2025-12-30


💡 一句话要点

RepetitionCurse:揭示并利用MoE LLM在DoS攻击下的路由失衡问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 拒绝服务攻击 对抗性攻击 负载均衡 模型安全

📋 核心要点

  1. MoE模型在推理时缺乏负载均衡,易受对抗性输入影响,导致路由集中。
  2. 提出RepetitionCurse方法,通过重复token模式生成对抗性提示,触发路由失衡。
  3. 实验表明,该方法能显著增加MoE模型的推理延迟,降低服务可用性。

📝 摘要(中文)

混合专家模型(MoE)架构因其卓越的参数效率已成为扩展大型语言模型的标准。为了适应实践中不断增长的专家数量,现代推理系统通常采用专家并行来跨设备分发专家。然而,由于推理过程中缺乏显式的负载均衡约束,对抗性输入可能触发严重的路由集中。我们证明,分布外的提示可以操纵路由策略,使得所有token始终被路由到同一组top-$k$专家,从而在某些设备上产生计算瓶颈,而迫使其他设备空闲。这会将效率机制转化为拒绝服务攻击向量,导致违反首个token时间的服务级别协议。我们提出RepetitionCurse,一种低成本的黑盒策略来利用此漏洞。通过识别MoE路由器行为中的普遍缺陷,RepetitionCurse使用简单的重复token模式以模型无关的方式构建对抗性提示。在广泛部署的MoE模型(如Mixtral-8x7B)上,我们的方法将端到端推理延迟提高了3.063倍,从而显著降低了服务可用性。

🔬 方法详解

问题定义:论文旨在解决混合专家模型(MoE LLM)在推理过程中,由于缺乏有效的负载均衡机制,容易受到对抗性攻击的问题。现有的MoE模型在面对精心设计的输入时,会将大部分甚至全部的token路由到少数几个专家上,导致这些专家所在的设备过载,而其他设备空闲,从而造成服务延迟和服务质量下降。这种现象使得MoE模型容易遭受拒绝服务(DoS)攻击。

核心思路:论文的核心思路是发现并利用MoE路由器行为中的普遍缺陷,即通过构造特定的输入模式(重复token),诱导模型将token集中路由到少数几个专家。这种方法无需了解模型的内部结构和参数,属于黑盒攻击,具有低成本和模型无关的特点。

技术框架:RepetitionCurse攻击框架主要包含以下几个步骤:1)选择目标MoE模型;2)构造包含重复token模式的对抗性提示;3)将对抗性提示输入到模型中进行推理;4)监测推理延迟和资源利用率,评估攻击效果。整个过程无需对模型进行任何修改或训练。

关键创新:该论文的关键创新在于发现了一种通用的、模型无关的对抗性攻击方法,可以有效地利用MoE模型路由器的弱点。与以往需要了解模型内部结构或进行梯度计算的白盒或灰盒攻击不同,RepetitionCurse只需要简单的重复token模式即可实现攻击,大大降低了攻击的难度和成本。

关键设计:RepetitionCurse的关键设计在于重复token模式的选择。论文通过实验发现,特定的重复token序列能够更有效地诱导模型将token路由到少数几个专家。具体的重复token序列的选择可能依赖于目标模型的特性,但总体思路是寻找能够最大程度地激活特定专家的token序列。此外,论文还研究了重复token序列的长度和重复次数对攻击效果的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RepetitionCurse方法在Mixtral-8x7B等广泛部署的MoE模型上,能够将端到端推理延迟提高3.063倍,显著降低服务可用性。该方法无需了解模型内部结构,属于黑盒攻击,具有低成本和模型无关的特点,易于实施。实验结果充分验证了MoE模型在面对对抗性输入时的脆弱性,并突出了负载均衡在MoE模型部署中的重要性。

🎯 应用场景

该研究成果可应用于评估和增强MoE模型的鲁棒性和安全性,尤其是在高并发、低延迟要求的在线服务场景中。通过识别和缓解RepetitionCurse这类攻击,可以提高MoE模型抵抗恶意输入的防御能力,保障服务质量,避免因资源不均衡导致的性能瓶颈。此外,该研究也为未来MoE模型的设计和优化提供了新的思路,例如引入显式的负载均衡约束,以提高模型的稳定性和可靠性。

📄 摘要(原文)

Mixture-of-Experts architectures have become the standard for scaling large language models due to their superior parameter efficiency. To accommodate the growing number of experts in practice, modern inference systems commonly adopt expert parallelism to distribute experts across devices. However, the absence of explicit load balancing constraints during inference allows adversarial inputs to trigger severe routing concentration. We demonstrate that out-of-distribution prompts can manipulate the routing strategy such that all tokens are consistently routed to the same set of top-$k$ experts, which creates computational bottlenecks on certain devices while forcing others to idle. This converts an efficiency mechanism into a denial-of-service attack vector, leading to violations of service-level agreements for time to first token. We propose RepetitionCurse, a low-cost black-box strategy to exploit this vulnerability. By identifying a universal flaw in MoE router behavior, RepetitionCurse constructs adversarial prompts using simple repetitive token patterns in a model-agnostic manner. On widely deployed MoE models like Mixtral-8x7B, our method increases end-to-end inference latency by 3.063x, degrading service availability significantly.