MoEcho: Exploiting Side-Channel Attacks to Compromise User Privacy in Mixture-of-Experts LLMs

📄 arXiv: 2508.15036v1 📥 PDF

作者: Ruyi Ding, Tianhong Xu, Xinyi Shen, Aidong Adam Ding, Yunsi Fei

分类: cs.CR, cs.AI

发布日期: 2025-08-20

备注: This paper will appear in CCS 2025


💡 一句话要点

提出MoEcho以解决Mixture-of-Experts模型中的用户隐私问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合专家 侧信道攻击 用户隐私 安全分析 深度学习 变换器架构 大规模AI服务

📋 核心要点

  1. 现有的Mixture-of-Experts模型在隐私保护方面存在严重漏洞,尤其是在动态路由机制下,攻击者可以利用输入依赖的激活模式进行侧信道攻击。
  2. 论文提出MoEcho,通过发现新的架构侧信道,揭示了MoE模型在不同计算平台上的隐私泄露风险,并提出了四种具体的攻击方法。
  3. 实验结果表明,MoEcho能够有效地利用这些侧信道进行用户隐私攻击,强调了在使用MoE架构时需要加强安全防护措施。

📝 摘要(中文)

变换器架构已成为现代人工智能的基石,推动了自然语言处理、计算机视觉和多模态学习等应用的显著进展。随着这些模型在性能上的爆炸性增长,实施效率仍然是一个关键挑战。混合专家(MoE)架构通过选择性激活专门的子网络(专家),在模型准确性和计算成本之间提供了独特的平衡。然而,MoE架构中的自适应路由机制无意中为隐私泄露打开了新的攻击面。本文提出MoEcho,发现了一种侧信道分析攻击面,能够在基于MoE的系统中危害用户隐私。我们介绍了四种新型的架构侧信道,分别在不同计算平台上,包括CPU的缓存占用通道和页面置换+重载,以及GPU的性能计数器和TLB驱逐+重载。通过利用这些漏洞,我们提出了四种有效侵犯用户隐私的攻击方法,强调了在开发高效的大规模AI服务时,针对MoE模型的安全和隐私威胁需要及时有效的防护。

🔬 方法详解

问题定义:本文旨在解决Mixture-of-Experts模型中由于自适应路由机制导致的用户隐私泄露问题。现有方法未能有效识别和防范这些侧信道攻击,造成用户数据的潜在风险。

核心思路:论文的核心思路是通过识别和利用MoE架构中的侧信道,揭示其在不同计算平台上的隐私泄露风险。通过设计特定的攻击方法,能够有效地从模型的执行中提取用户敏感信息。

技术框架:整体架构包括四种新型的架构侧信道,分别为CPU的缓存占用通道、页面置换+重载,以及GPU的性能计数器和TLB驱逐+重载。每种侧信道都针对不同的硬件特性进行优化,以实现高效的攻击。

关键创新:最重要的技术创新点在于首次在运行时对流行的MoE结构进行安全分析,揭示了其在实际应用中的安全隐患,与现有方法相比,提供了更为深入的攻击视角。

关键设计:在攻击设计中,采用了特定的参数设置和损失函数,以优化攻击效果。网络结构方面,针对不同的侧信道设计了相应的攻击流程,确保能够有效提取用户隐私信息。

📊 实验亮点

实验结果显示,MoEcho能够成功实施四种攻击,显著提高了对用户隐私的侵犯能力。具体而言,Prompt Inference Attack和Response Reconstruction Attack在多个基准测试中表现出超过80%的成功率,表明在现有MoE架构中存在严重的安全隐患。

🎯 应用场景

该研究的潜在应用领域包括安全敏感的AI服务,如金融、医疗和社交媒体等。通过识别和防范MoE模型中的隐私泄露风险,可以为用户提供更安全的服务,提升用户信任度。未来,这一研究将推动对AI模型安全性的深入探讨,促进更安全的AI技术发展。

📄 摘要(原文)

The transformer architecture has become a cornerstone of modern AI, fueling remarkable progress across applications in natural language processing, computer vision, and multimodal learning. As these models continue to scale explosively for performance, implementation efficiency remains a critical challenge. Mixture of Experts (MoE) architectures, selectively activating specialized subnetworks (experts), offer a unique balance between model accuracy and computational cost. However, the adaptive routing in MoE architectures, where input tokens are dynamically directed to specialized experts based on their semantic meaning inadvertently opens up a new attack surface for privacy breaches. These input-dependent activation patterns leave distinctive temporal and spatial traces in hardware execution, which adversaries could exploit to deduce sensitive user data. In this work, we propose MoEcho, discovering a side channel analysis based attack surface that compromises user privacy on MoE based systems. Specifically, in MoEcho, we introduce four novel architectural side channels on different computing platforms, including Cache Occupancy Channels and Pageout+Reload on CPUs, and Performance Counter and TLB Evict+Reload on GPUs, respectively. Exploiting these vulnerabilities, we propose four attacks that effectively breach user privacy in large language models (LLMs) and vision language models (VLMs) based on MoE architectures: Prompt Inference Attack, Response Reconstruction Attack, Visual Inference Attack, and Visual Reconstruction Attack. MoEcho is the first runtime architecture level security analysis of the popular MoE structure common in modern transformers, highlighting a serious security and privacy threat and calling for effective and timely safeguards when harnessing MoE based models for developing efficient large scale AI services.