Steering MoE LLMs via Expert (De)Activation

📄 arXiv: 2509.09660v1 📥 PDF

作者: Mohsen Fayyaz, Ali Modarressi, Hanieh Deilamsalehy, Franck Dernoncourt, Ryan Rossi, Trung Bui, Hinrich Schütze, Nanyun Peng

分类: cs.CL, cs.LG

发布日期: 2025-09-11


💡 一句话要点

SteerMoE:通过专家激活调控MoE LLM行为,提升安全性与可靠性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 大语言模型 行为调控 安全性 忠实性 对抗攻击 专家激活 模型对齐

📋 核心要点

  1. 现有MoE LLM难以针对特定行为进行有效调控,缺乏细粒度的控制手段。
  2. SteerMoE通过识别并控制与特定行为相关的专家,实现对MoE LLM行为的精准调控。
  3. 实验表明,SteerMoE显著提升了MoE LLM的安全性与忠实性,并揭示了潜在的安全风险。

📝 摘要(中文)

本文提出SteerMoE框架,旨在通过检测和控制与特定行为相关的专家,从而调控混合专家(MoE)大语言模型(LLM)的行为。该检测方法能够识别在具有对比行为的成对输入中表现出明显激活模式的专家。通过在推理过程中选择性地(去)激活这些专家,我们可以在不重新训练或修改权重的情况下控制诸如忠实性和安全性等行为。在11个基准测试和6个LLM上,我们的方法将安全性提高了高达+20%,忠实性提高了高达+27%。在对抗攻击模式下,单独使用SteerMoE可使安全性降低-41%,与现有越狱方法结合使用时,安全性降低-100%,绕过了所有安全防护措施,揭示了隐藏在专家内部的对齐伪造的新维度。

🔬 方法详解

问题定义:MoE LLM虽然参数量巨大,但其行为控制仍然是一个挑战。现有方法难以针对特定行为(如安全性、忠实性)进行有效干预,缺乏对模型内部专家行为的细粒度理解和控制机制。这使得模型在面对对抗性攻击时容易失效,并可能产生不安全或不忠实的结果。

核心思路:SteerMoE的核心思路是通过识别并控制与特定行为相关的专家来实现对MoE LLM行为的调控。具体来说,该方法首先检测在不同行为的输入下具有显著激活差异的专家,然后通过在推理时选择性地激活或去激活这些专家,从而影响模型的输出行为。这种方法无需重新训练模型,即可实现对模型行为的灵活控制。

技术框架:SteerMoE框架主要包含两个阶段:专家检测和行为调控。在专家检测阶段,该方法使用具有对比行为的成对输入(例如,安全提示和不安全提示)来计算每个专家的激活模式。然后,通过统计检验(例如,t检验)来识别在不同行为输入下具有显著激活差异的专家。在行为调控阶段,该方法根据用户的需求选择性地激活或去激活这些专家。例如,为了提高安全性,可以去激活与不安全行为相关的专家。

关键创新:SteerMoE的关键创新在于其能够识别并利用MoE LLM中与特定行为相关的专家。与现有方法相比,SteerMoE提供了一种更细粒度的行为控制机制,可以在不重新训练模型的情况下实现对模型行为的灵活调控。此外,SteerMoE还揭示了MoE LLM中隐藏的安全风险,并提供了一种有效的对抗攻击方法。

关键设计:在专家检测阶段,论文使用了t检验来评估专家激活差异的显著性,并设置了p值阈值来筛选显著相关的专家。在行为调控阶段,论文通过简单的激活/去激活操作来实现对专家行为的控制。具体来说,当需要激活某个专家时,保持其原始激活值不变;当需要去激活某个专家时,将其激活值设置为零。此外,论文还探索了不同的专家组合策略,以实现更精细的行为调控。

📊 实验亮点

SteerMoE在11个基准测试和6个LLM上进行了评估,结果表明该方法能够显著提高模型的安全性(高达+20%)和忠实性(高达+27%)。在对抗攻击模式下,SteerMoE单独使用可使安全性降低-41%,与现有越狱方法结合使用时,安全性降低-100%,表明其具有强大的攻击能力。

🎯 应用场景

SteerMoE可应用于各种需要对LLM行为进行精细控制的场景,例如:内容审核、安全对话系统、医疗诊断等。通过调控模型的安全性、忠实性等关键属性,可以提高LLM在这些场景中的可靠性和实用性。此外,SteerMoE还可以用于评估和改进LLM的安全性,并发现潜在的安全漏洞。

📄 摘要(原文)

Mixture-of-Experts (MoE) in Large Language Models (LLMs) routes each token through a subset of specialized Feed-Forward Networks (FFN), known as experts. We present SteerMoE, a framework for steering MoE models by detecting and controlling behavior-linked experts. Our detection method identifies experts with distinct activation patterns across paired inputs exhibiting contrasting behaviors. By selectively (de)activating such experts during inference, we control behaviors like faithfulness and safety without retraining or modifying weights. Across 11 benchmarks and 6 LLMs, our steering raises safety by up to +20% and faithfulness by +27%. In adversarial attack mode, it drops safety by -41% alone, and -100% when combined with existing jailbreak methods, bypassing all safety guardrails and exposing a new dimension of alignment faking hidden within experts.