Opening the Black Box: Interpretable LLMs via Semantic Resonance Architecture
作者: Ivan Ternovtsii
分类: cs.CL, cs.AI
发布日期: 2025-09-12
备注: 13 pages, 5 figures. Code available at https://github.com/ITernovtsii/semantic-resonance. Preprint
💡 一句话要点
提出语义共振架构SRA,提升LLM可解释性与专家利用率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 可解释性 混合专家模型 语义路由 专家利用率
📋 核心要点
- 现有LLM可解释性差,MoE模型门控函数不透明,限制了模型理解和控制。
- SRA通过语义共振室CSR,利用token与语义锚点的相似性进行路由,提升可解释性。
- 实验表明,SRA在困惑度上优于基线模型,并显著提升了专家利用率,降低了死亡专家比例。
📝 摘要(中文)
大型语言模型(LLMs)性能卓越,但可解释性仍然不足。混合专家模型(MoE)通过稀疏激活提高效率,但通常依赖于不透明的学习门控函数。虽然基于相似性的路由(余弦路由器)已被用于训练稳定,但其内在可解释性的潜力尚未被充分挖掘。我们引入了语义共振架构(SRA),这是一种MoE方法,旨在确保路由决策具有内在的可解释性。SRA用语义共振室(CSR)模块取代了学习门控,该模块基于与可训练语义锚点的余弦相似性来路由token。我们还引入了一种新的分散损失,鼓励锚点之间的正交性,以实现多样化的专业化。在WikiText-103上的实验表明,SRA实现了13.41的验证困惑度,优于密集基线(14.13)和标准MoE基线(13.53),同时保持了匹配的激活参数约束(29.0M)。至关重要的是,SRA表现出卓越的专家利用率(1.0%的死亡专家,而标准MoE为14.8%),并发展出独特的、语义连贯的专业化模式,这与标准MoE中观察到的嘈杂专业化不同。这项工作确立了语义路由作为构建更透明和可控语言模型的强大方法。
🔬 方法详解
问题定义:现有大型语言模型(LLMs)的可解释性差,尤其是在混合专家模型(MoE)中,其路由决策依赖于复杂的、学习得到的门控函数,这些函数难以理解和控制。这使得我们难以理解模型为什么做出特定的决策,以及如何改进模型的行为。此外,传统的MoE模型经常出现专家利用率低的问题,即某些专家始终未被激活(“死亡专家”),导致计算资源的浪费。
核心思路:论文的核心思路是用语义相似性来指导token的路由决策,从而使路由过程更加透明和可解释。具体来说,论文引入了“语义共振架构”(SRA),该架构使用一组可训练的“语义锚点”来代表不同的语义概念。每个token根据其与这些锚点的语义相似性(通过余弦相似度计算)被路由到相应的专家。这种基于语义的路由方式使得我们可以更容易地理解每个专家负责处理哪些类型的输入,从而提高模型的可解释性。
技术框架:SRA的核心是“语义共振室”(CSR)模块,它取代了传统MoE中的学习门控函数。CSR模块包含一组可训练的语义锚点,每个锚点代表一个特定的语义概念。当一个token输入CSR模块时,它会计算与每个锚点的余弦相似度。然后,根据这些相似度,token被路由到相应的专家。整个架构可以看作是一个MoE模型,其中CSR模块负责路由,而专家负责处理不同类型的输入。
关键创新:SRA最关键的创新在于使用语义相似性来指导token的路由决策。与传统的MoE模型不同,SRA不依赖于复杂的、学习得到的门控函数,而是使用一组可解释的语义锚点。这使得我们可以更容易地理解每个专家负责处理哪些类型的输入,从而提高模型的可解释性。此外,论文还引入了一种新的分散损失,鼓励锚点之间的正交性,以实现多样化的专业化。
关键设计:SRA的关键设计包括:1)使用余弦相似度作为语义相似性的度量标准;2)引入语义锚点来代表不同的语义概念;3)使用分散损失来鼓励锚点之间的正交性。分散损失的具体形式未知,但其目的是确保不同的锚点代表不同的语义概念,从而避免出现多个锚点代表相同概念的情况。专家网络的结构未知,但可以根据具体任务进行调整。
📊 实验亮点
SRA在WikiText-103数据集上取得了显著成果,验证困惑度为13.41,优于密集基线(14.13)和标准MoE基线(13.53),同时保持了相同的激活参数数量(29.0M)。更重要的是,SRA显著提高了专家利用率,死亡专家比例仅为1.0%,远低于标准MoE的14.8%,并且展现出更清晰的语义专业化模式。
🎯 应用场景
SRA架构可应用于需要高可解释性的自然语言处理任务,例如医疗诊断、金融风控等。通过理解模型的决策过程,可以提高用户对模型的信任度,并更好地进行错误分析和模型改进。此外,SRA架构也有助于开发更可控的语言模型,例如可以控制模型生成特定主题或风格的文本。
📄 摘要(原文)
Large language models (LLMs) achieve remarkable performance but remain difficult to interpret. Mixture-of-Experts (MoE) models improve efficiency through sparse activation, yet typically rely on opaque, learned gating functions. While similarity-based routing (Cosine Routers) has been explored for training stabilization, its potential for inherent interpretability remains largely untapped. We introduce the Semantic Resonance Architecture (SRA), an MoE approach designed to ensure that routing decisions are inherently interpretable. SRA replaces learned gating with a Chamber of Semantic Resonance (CSR) module, which routes tokens based on cosine similarity with trainable semantic anchors. We also introduce a novel Dispersion Loss that encourages orthogonality among anchors to enforce diverse specialization. Experiments on WikiText-103 demonstrate that SRA achieves a validation perplexity of 13.41, outperforming both a dense baseline (14.13) and a Standard MoE baseline (13.53) under matched active parameter constraints (29.0M). Crucially, SRA exhibits superior expert utilization (1.0% dead experts vs. 14.8% in the Standard MoE) and develops distinct, semantically coherent specialization patterns, unlike the noisy specialization observed in standard MoEs. This work establishes semantic routing as a robust methodology for building more transparent and controllable language models.