Check Your LLM's Secret Dictionary! Five Lines of Code Reveal What Your LLM Learned (Including What It Shouldn't Have)
作者: Hisashi Miyashita
分类: cs.LG, cs.CL
发布日期: 2026-05-21
💡 一句话要点
通过 lm_head 权重矩阵的奇异值分解揭示LLM的隐藏语义和潜在问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 奇异值分解 模型可解释性 安全性审计 故障Token检测
📋 核心要点
- 现有方法难以直接从LLM权重中分析其学习到的语义和潜在的安全问题,缺乏高效的静态分析手段。
- 利用
lm_head权重矩阵的奇异值分解,无需推理即可揭示LLM的语义子空间和潜在的伦理问题。 - 通过分析多个LLM,发现不同模型在语义子空间结构上存在差异,并提出了量化指标VCS和WPS。
📝 摘要(中文)
本文展示了通过对基于Transformer的大型语言模型(LLM)的lm_head权重矩阵进行奇异值分解(SVD),仅需五行PyTorch代码且无需模型推理,即可从模型权重中揭示可解释的语义子空间。每个左奇异向量标识了当隐藏状态与相应奇异方向对齐时最容易选择的词汇tokens;检查这些聚类可以揭示模型的训练数据组成和管理理念。通过分析GPT-OSS-120B、Gemma-2-2B和Qwen2.5-1.5B,我们发现奇异值谱和词汇聚类结构在不同模型之间存在系统性差异:GPT表现出功能分化的子空间的分层结构;Gemma主要由19世纪之前的英语正字法主导,形成阶梯式聚类结构,这可能有助于实现高输出可控性;Qwen表现出广泛的多语言覆盖,以及作者认为在伦理上不适合直接发布的词汇子空间。Base-instruct比较表明,伦理上令人担忧的子空间起源于预训练,并且没有通过后训练对齐来消除。我们引入了词汇聚类分数(VCS)来量化子空间一致性,以及加权投影分数(WPS)作为静态故障token检测器;将WPS应用于GPT-OSS-120B,无需任何模型推理即可恢复shokubutsu-hyakka-tsu(ID 137606),这是一个在CJK语言社区广泛报道的著名故障token。我们提出了问题词汇内容的根本原因分类法,并呼吁将lm_head SVD分析作为标准的预发布安全审计步骤。我们的发现进一步提出了SVD引导的tokenizer优化和更可控的LLM设计方向。
🔬 方法详解
问题定义:论文旨在解决如何高效地理解大型语言模型(LLM)内部学习到的知识表示,特别是其中可能存在的伦理风险或不当内容。现有方法通常依赖于模型推理或复杂的干预技术,效率较低,且难以直接从模型权重中发现问题。
核心思路:论文的核心思路是利用线性代数中的奇异值分解(SVD)来分析LLM的lm_head权重矩阵。lm_head负责将模型的隐藏状态映射到词汇表概率分布,因此其权重包含了模型对词汇的语义理解。通过SVD,可以将lm_head分解为一系列奇异向量和奇异值,每个奇异向量对应一个语义子空间,而奇异值则表示该子空间的重要性。
技术框架:该方法主要包含以下几个步骤:1) 获取LLM的lm_head权重矩阵;2) 对该矩阵进行奇异值分解;3) 分析左奇异向量,每个向量对应一个词汇聚类,代表一个语义子空间;4) 使用词汇聚类分数(VCS)量化子空间的一致性;5) 使用加权投影分数(WPS)检测潜在的故障token。整个过程无需模型推理,仅需少量代码即可完成。
关键创新:该方法最重要的创新在于其高效性和可解释性。通过SVD,可以直接从模型权重中提取语义信息,而无需进行复杂的推理或干预。此外,VCS和WPS等指标提供了一种量化分析LLM内部表示的方法,有助于发现潜在的安全风险。
关键设计:关键设计包括:1) 使用SVD分解lm_head权重矩阵;2) 定义词汇聚类分数(VCS)来衡量子空间内词汇的一致性,VCS越高表示子空间语义越明确;3) 定义加权投影分数(WPS)来检测可能导致模型输出异常的故障token,WPS基于token在奇异向量上的投影权重。
🖼️ 关键图片
📊 实验亮点
实验结果表明,不同LLM的奇异值谱和词汇聚类结构存在显著差异。例如,GPT表现出功能分化的子空间分层结构,而Gemma主要由19世纪之前的英语正字法主导。此外,该方法成功检测到GPT-OSS-120B中的故障token 'shokubutsu-hyakka-tsu',无需任何模型推理。
🎯 应用场景
该研究成果可应用于LLM的安全性审计、tokenizer优化和可控LLM设计。通过SVD分析,可以提前发现LLM中潜在的伦理风险和不当内容,从而避免模型在实际应用中产生不良影响。此外,该方法还可以用于优化tokenizer,提高模型的效率和性能。最后,通过控制LLM的语义子空间,可以实现更可控的模型输出。
📄 摘要(原文)
We show that singular value decomposition of the lm_head} weight matrix of a transformer-based large language model -- requiring only five lines of PyTorch and no model inference -- reveals interpretable semantic subspaces directly from the model weights. Each left singular vector identifies the vocabulary tokens most readily selected when the hidden state aligns with the corresponding singular direction; inspecting these clusters exposes the model's training data composition and curation philosophy. Analysing GPT-OSS-120B, Gemma-2-2B, and Qwen2.5-1.5B, we find that singular value spectra and vocabulary cluster structures differ systematically across models: GPT exhibits a graduated hierarchy of functionally differentiated subspaces; Gemma is dominated by pre-nineteenth-century English orthography, forming a stepwise clustering structure that may contribute to high output controllability; and Qwen exhibits broad multilingual coverage alongside subspaces whose vocabulary the authors have determined to be ethically inappropriate for direct publication. Base-instruct comparison reveals that ethically concerning subspaces originate in pretraining and are not removed by post-training alignment. We introduce the Vocabulary Cluster Score (VCS) to quantify subspace coherence, and the Weighted Projection Score (WPS) as a static glitch token detector; applying WPS to GPT-OSS-120B recovers shokubutsu-hyakka-tsu (ID 137606), a well-known glitch token widely reported in the CJK language community, without any model inference. We propose a taxonomy of root causes for problematic vocabulary content and call for lm_head} SVD analysis to be adopted as a standard pre-release safety auditing step. Our findings further suggest directions toward SVD-guided tokenizer optimisation and more controllable LLM design.