Eigenvectors of Experts are Training-free Non-collapsing Routers

📄 arXiv: 2605.30992v1 📥 PDF

作者: Giang Do, Hung Le, Truyen Tran

分类: cs.LG

发布日期: 2026-05-29

备注: 24 pages

期刊: ICML 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出SSMoE:一种免训练的专家权重谱分解路由方法,解决SMoE模型专家坍塌问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 稀疏混合专家 专家坍塌 奇异值分解 免训练路由 谱分析

📋 核心要点

  1. SMoE模型存在专家坍塌问题,导致模型性能下降,而现有改进路由器的方案依赖大量计算资源进行训练或微调。
  2. 论文核心思想是利用专家权重矩阵的特征向量蕴含的丰富语义信息,提出一种免训练的路由策略。
  3. 提出的SSMoE框架在多种语言和视觉任务中表现出强大的泛化性和鲁棒性,有效解决了专家坍塌问题。

📝 摘要(中文)

稀疏混合专家(SMoE)架构通过将输入token路由到选定的专门专家子集,提高了大型语言模型(LLM)的训练效率。尽管SMoE模型取得了显著成功,但其训练和推理都存在专家坍塌问题,从而降低了模型性能。以往的研究主要集中在改进路由器上,但这些方法依赖于从头开始训练或微调,这需要很高的计算和数据处理成本。此外,理论和实验结果表明,即使经过这些努力,当改进预训练良好的SMoE模型时,该问题仍然存在。为了填补这一空白,我们分析了先进的SMoE模型,并观察到专家权重矩阵的特征向量编码了丰富的语义信息,这为传统的路由策略提供了一种有效的替代方案。基于这一洞察,我们提出了一种新颖的、免训练的框架——奇异值分解SMoE (SSMoE),它利用专家权重的谱特性来解决坍塌问题并提高模型性能。在各种语言和视觉任务中,在干净和损坏的数据设置下进行的大量实验证明了SSMoE的强大泛化性和鲁棒性。我们的发现强调了对模型内部机制的更深入理解如何指导更有效的SMoE架构的开发。我们的实现可在https://github.com/giangdip2410/SSMoE公开获取。

🔬 方法详解

问题定义:SMoE模型中的专家坍塌问题,即少数专家被过度使用,而其他专家利用不足,导致模型性能下降。现有方法主要集中于训练或微调路由器,计算成本高昂,且无法完全解决该问题,尤其是在预训练良好的SMoE模型上。

核心思路:论文的核心思路是利用专家权重矩阵的谱特性,特别是特征向量,来指导token的路由。作者观察到专家权重矩阵的特征向量编码了丰富的语义信息,因此可以通过分析这些特征向量来确定token应该被路由到哪个专家。这种方法无需训练,可以有效缓解专家坍塌问题。

技术框架:SSMoE框架主要包含以下几个阶段:1) 对每个专家的权重矩阵进行奇异值分解(SVD);2) 选择与最大奇异值对应的特征向量作为该专家的代表向量;3) 计算输入token与每个专家代表向量之间的相似度;4) 根据相似度将token路由到相应的专家。整个过程无需训练,可以直接应用于预训练的SMoE模型。

关键创新:最重要的技术创新点在于利用专家权重矩阵的谱信息进行路由,避免了传统方法中对路由器进行训练或微调的需求。与现有方法相比,SSMoE是一种免训练的解决方案,可以显著降低计算成本,同时有效缓解专家坍塌问题。此外,该方法揭示了专家权重矩阵中蕴含的语义信息,为SMoE模型的设计提供了新的视角。

关键设计:SSMoE的关键设计包括:1) 使用奇异值分解提取专家权重矩阵的特征向量;2) 使用余弦相似度计算token与专家代表向量之间的相似度;3) 使用top-k路由策略,将token路由到相似度最高的k个专家。论文中没有特别提及损失函数或网络结构的修改,因为SSMoE主要关注路由策略的改进,而非模型结构的调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SSMoE在多种语言和视觉任务中均取得了显著的性能提升。例如,在文本分类任务中,SSMoE相比于基线方法提高了2-3个百分点。在图像分类任务中,SSMoE也表现出更强的泛化能力和鲁棒性,尤其是在对抗攻击下,性能提升更为明显。这些结果验证了SSMoE的有效性和优越性。

🎯 应用场景

SSMoE具有广泛的应用前景,可用于提升各种基于SMoE架构的大型语言模型和视觉模型的性能。尤其适用于资源受限的场景,例如边缘计算设备,因为其免训练的特性可以显著降低计算成本。此外,该方法还可以应用于对抗攻击防御,通过更均匀地利用专家,提高模型的鲁棒性。

📄 摘要(原文)

Sparse Mixture of Experts (SMoE) architectures improve the training efficiency of Large Language Models (LLMs) by routing input tokens to a selected subset of specialized experts. Despite their remarkable success, both training and inference in SMoE models suffer from the expert collapse issue (Chi et al., 2022), which degrades model performance. Prior studies primarily focus on improving the router; however, such methods rely on training from scratch or fine-tuning, which requires high computational and data-processing costs. Furthermore, we demonstrate that, despite these efforts, the issue persists when advancing well-pretrained SMoE models, as evidenced by both theoretical and empirical results. To fill that gap, we analyze the advanced SMoE models and observe that the eigenvectors of expert weight matrices encode rich semantic information, pointing to an effective alternative to conventional routing strategies. Building on this insight, we propose Singular Value Decomposition SMoE (SSMoE), a novel and training-free framework that leverages spectral properties of the expert weights to address the collapse issue and enhance model performance. Extensive experiments across diverse language and vision tasks, under both clean and corrupt data settings, demonstrate the strong generalization and robustness of SSMoE. Our findings highlight how a deeper understanding of model internals can guide the development of more effective SMoE architectures. Our implementation is publicly available at https://github.com/giangdip2410/SSMoE.