Opening the Black Box: Interpretable LLMs via Semantic Resonance Architecture

📄 arXiv: 2509.14255v1 📥 PDF

作者: Ivan Ternovtsii

分类: cs.CL, cs.AI

发布日期: 2025-09-12

备注: 13 pages, 5 figures. Code available at https://github.com/ITernovtsii/semantic-resonance. Preprint


💡 一句话要点

提出语义共振架构SRA,实现LLM中专家路由的内生可解释性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 混合专家模型 可解释性 语义路由 余弦相似度 语义锚点 分散损失

📋 核心要点

  1. 现有LLM可解释性差,MoE模型依赖不透明门控,限制了模型理解和控制。
  2. 提出SRA,用语义锚点和余弦相似度进行token路由,实现专家选择的语义可解释性。
  3. 实验表明,SRA在困惑度上优于基线模型,并显著提升了专家利用率和语义专业化。

📝 摘要(中文)

大型语言模型(LLMs)性能卓越,但可解释性仍然不足。混合专家模型(MoE)通过稀疏激活提高效率,但通常依赖于不透明的学习门控函数。虽然基于相似性的路由(余弦路由器)已被用于训练稳定,但其内在可解释性的潜力尚未得到充分利用。我们引入了语义共振架构(SRA),这是一种MoE方法,旨在确保路由决策具有内在可解释性。SRA用语义共振室(CSR)模块取代了学习门控,该模块基于与可训练语义锚点的余弦相似性来路由tokens。我们还引入了一种新的分散损失,鼓励锚点之间的正交性,以强制实现多样化的专业化。在WikiText-103上的实验表明,SRA实现了13.41的验证困惑度,优于密集基线(14.13)和标准MoE基线(13.53),且参数量匹配(29.0M)。至关重要的是,SRA表现出卓越的专家利用率(1.0%的无效专家,而标准MoE为14.8%),并发展出独特的、语义连贯的专业化模式,这与标准MoE中观察到的嘈杂专业化不同。这项工作确立了语义路由作为构建更透明和可控语言模型的强大方法。

🔬 方法详解

问题定义:现有MoE模型中的专家路由通常使用复杂的、学习得到的门控函数,这些函数缺乏透明性和可解释性。这使得理解每个专家负责处理什么样的输入,以及为什么做出这样的路由决策变得困难。因此,难以对模型行为进行调试、控制和信任。

核心思路:SRA的核心思路是用一组可解释的语义锚点来指导token的路由。每个锚点代表一个特定的语义概念,token根据其与这些锚点的相似度被路由到相应的专家。通过这种方式,路由决策直接与语义相关联,从而提高了可解释性。

技术框架:SRA包含一个Chamber of Semantic Resonance (CSR)模块,该模块取代了传统的门控网络。CSR模块包含一组可训练的语义锚点。对于每个输入的token,CSR计算该token与所有锚点之间的余弦相似度。然后,token被路由到与其相似度最高的锚点对应的专家。整个架构可以看作是一个MoE模型,其中CSR模块负责可解释的路由。

关键创新:SRA的关键创新在于使用语义锚点和余弦相似度进行token路由,从而实现了专家选择的内生可解释性。与传统的MoE模型相比,SRA避免了使用复杂的、学习得到的门控函数,而是直接基于语义相似度进行路由,这使得路由决策更加透明和可理解。

关键设计:SRA的关键设计包括:1) 使用可训练的语义锚点来代表不同的语义概念;2) 使用余弦相似度来衡量token与锚点之间的相似度;3) 引入分散损失(Dispersion Loss)来鼓励锚点之间的正交性,从而促进专家之间的多样化专业化。分散损失的目标是最大化锚点之间的最小余弦相似度,从而避免锚点聚集到相似的语义空间。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SRA在WikiText-103数据集上取得了13.41的验证困惑度,优于参数量匹配的密集基线(14.13)和标准MoE基线(13.53)。更重要的是,SRA显著提高了专家利用率,将无效专家比例从标准MoE的14.8%降低到1.0%。此外,SRA还展现出清晰的语义专业化模式,每个专家负责处理不同的语义概念。

🎯 应用场景

SRA可应用于需要高可解释性的LLM应用场景,如医疗诊断、金融风控等。通过理解专家如何处理不同的输入,可以提高模型的可信度和可控性。此外,SRA还可以用于构建更个性化的语言模型,根据用户的特定需求定制专家的行为。

📄 摘要(原文)

Large language models (LLMs) achieve remarkable performance but remain difficult to interpret. Mixture-of-Experts (MoE) models improve efficiency through sparse activation, yet typically rely on opaque, learned gating functions. While similarity-based routing (Cosine Routers) has been explored for training stabilization, its potential for inherent interpretability remains largely untapped. We introduce the Semantic Resonance Architecture (SRA), an MoE approach designed to ensure that routing decisions are inherently interpretable. SRA replaces learned gating with a Chamber of Semantic Resonance (CSR) module, which routes tokens based on cosine similarity with trainable semantic anchors. We also introduce a novel Dispersion Loss that encourages orthogonality among anchors to enforce diverse specialization. Experiments on WikiText-103 demonstrate that SRA achieves a validation perplexity of 13.41, outperforming both a dense baseline (14.13) and a Standard MoE baseline (13.53) under matched active parameter constraints (29.0M). Crucially, SRA exhibits superior expert utilization (1.0% dead experts vs. 14.8% in the Standard MoE) and develops distinct, semantically coherent specialization patterns, unlike the noisy specialization observed in standard MoEs. This work establishes semantic routing as a robust methodology for building more transparent and controllable language models.