PWC-MoE: Privacy-Aware Wireless Collaborative Mixture of Experts

📄 arXiv: 2505.08719v1 📥 PDF

作者: Yang Su, Na Yan, Yansha Deng, Robert Schober

分类: cs.LG, cs.AI

发布日期: 2025-05-13


💡 一句话要点

提出PWC-MoE框架,解决带宽受限环境下LLM的隐私保护和性能平衡问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 隐私保护 带宽受限 联邦学习 边缘计算 语言模型 无线通信

📋 核心要点

  1. 现有云端LLM方案面临数据传输的隐私风险和高带宽需求,本地SLM方案则性能受限,难以应对复杂任务。
  2. PWC-MoE框架通过隐私感知的门控网络,将敏感token路由到本地隐私专家,非敏感token路由到远程非隐私专家,实现隐私保护和性能平衡。
  3. 实验表明,PWC-MoE在带宽受限环境中有效保护了隐私,并保持了较高的模型性能,为实际部署提供了可行方案。

📝 摘要(中文)

本文提出了一种隐私感知的无线协作混合专家(PWC-MoE)框架,旨在解决在带宽受限环境中部署大型语言模型(LLM)时面临的隐私泄露和通信负担问题。PWC-MoE采用稀疏的隐私感知门控网络,动态地将敏感token路由到位于本地客户端的隐私专家,而非敏感token则路由到位于远程基站的非隐私专家。为了提高计算效率,门控网络确保每个token仅由一个专家处理。为了增强可扩展性并防止特定专家过载,引入分组式负载均衡机制,均匀地将敏感token分配给隐私专家,非敏感token分配给非隐私专家。为了适应带宽约束并保持模型性能,提出了一种带宽自适应和重要性感知的token卸载方案,该方案利用重要性预测器评估非敏感token的重要性,并根据预测的重要性和可用带宽,优先将最重要的token传输到基站。实验结果表明,PWC-MoE框架有效地保护了隐私,并在带宽受限的环境中保持了高性能,为在隐私敏感和带宽受限的场景中部署LLM提供了一种实用的解决方案。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)通常部署在云服务器上,这减轻了本地设备的计算和存储负担,但也带来了隐私问题,因为需要传输敏感数据。另一方面,在本地运行的小型语言模型(SLM)虽然增强了隐私,但在复杂任务上的性能有限。因此,如何在带宽受限的环境下,平衡计算成本、性能和隐私保护,是一个亟待解决的问题。

核心思路:PWC-MoE的核心思路是利用混合专家(MoE)架构,并结合隐私感知的路由策略,将LLM的不同部分部署在不同的位置。具体来说,敏感数据由本地客户端上的“隐私专家”处理,而非敏感数据则由远程基站上的“非隐私专家”处理。通过这种方式,敏感数据无需传输到云端,从而保护了用户隐私。同时,利用带宽自适应的token卸载方案,在带宽受限的情况下,优先传输重要的token,保证模型性能。

技术框架:PWC-MoE框架主要包含以下几个模块:1) 隐私感知门控网络:负责将token动态地路由到不同的专家。2) 本地隐私专家:处理敏感token,位于本地客户端。3) 远程非隐私专家:处理非敏感token,位于远程基站。4) 分组式负载均衡机制:确保token在不同专家之间均匀分配,防止某些专家过载。5) 带宽自适应和重要性感知的token卸载方案:根据token的重要性以及可用带宽,决定哪些token需要传输到基站。整体流程是,输入token首先经过门控网络,根据token的敏感程度和专家负载情况,被路由到相应的专家。如果token被路由到远程非隐私专家,则需要根据token的重要性以及可用带宽,决定是否将token传输到基站。

关键创新:PWC-MoE的关键创新在于:1) 隐私感知的路由策略:通过门控网络,将敏感token路由到本地隐私专家,从而保护了用户隐私。2) 分组式负载均衡机制:确保token在不同专家之间均匀分配,提高了系统的可扩展性。3) 带宽自适应和重要性感知的token卸载方案:在带宽受限的情况下,优先传输重要的token,保证了模型性能。

关键设计:1) 门控网络的设计:门控网络需要能够准确地判断token的敏感程度,并根据专家负载情况进行路由。具体实现可能采用神经网络,并使用隐私保护技术,例如差分隐私,来保护门控网络的隐私。2) 重要性预测器的设计:重要性预测器需要能够准确地评估token的重要性。具体实现可能采用神经网络,并使用注意力机制来捕捉token之间的依赖关系。3) 损失函数的设计:损失函数需要同时考虑模型的性能、隐私保护程度以及负载均衡情况。具体实现可能采用多目标优化方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PWC-MoE框架在保护隐私的同时,能够在带宽受限的环境中保持较高的模型性能。具体来说,PWC-MoE在保证一定隐私水平的前提下,相比于完全本地部署的SLM,性能提升显著;同时,相比于完全云端部署的LLM,在带宽受限的情况下,性能损失较小,且有效保护了用户隐私。

🎯 应用场景

PWC-MoE框架适用于各种隐私敏感且带宽受限的应用场景,例如:联邦学习、边缘计算、智能医疗、金融风控等。该框架能够在保护用户隐私的前提下,充分利用本地和远程计算资源,提高LLM的部署效率和性能,具有广阔的应用前景。

📄 摘要(原文)

Large language models (LLMs) hosted on cloud servers alleviate the computational and storage burdens on local devices but raise privacy concerns due to sensitive data transmission and require substantial communication bandwidth, which is challenging in constrained environments. In contrast, small language models (SLMs) running locally enhance privacy but suffer from limited performance on complex tasks. To balance computational cost, performance, and privacy protection under bandwidth constraints, we propose a privacy-aware wireless collaborative mixture of experts (PWC-MoE) framework. Specifically, PWC-MoE employs a sparse privacy-aware gating network to dynamically route sensitive tokens to privacy experts located on local clients, while non-sensitive tokens are routed to non-privacy experts located at the remote base station. To achieve computational efficiency, the gating network ensures that each token is dynamically routed to and processed by only one expert. To enhance scalability and prevent overloading of specific experts, we introduce a group-wise load-balancing mechanism for the gating network that evenly distributes sensitive tokens among privacy experts and non-sensitive tokens among non-privacy experts. To adapt to bandwidth constraints while preserving model performance, we propose a bandwidth-adaptive and importance-aware token offloading scheme. This scheme incorporates an importance predictor to evaluate the importance scores of non-sensitive tokens, prioritizing the most important tokens for transmission to the base station based on their predicted importance and the available bandwidth. Experiments demonstrate that the PWC-MoE framework effectively preserves privacy and maintains high performance even in bandwidth-constrained environments, offering a practical solution for deploying LLMs in privacy-sensitive and bandwidth-limited scenarios.