Demystifying Singular Defects in Large Language Models

📄 arXiv: 2502.07004v2 📥 PDF

作者: Haoqi Wang, Tong Zhang, Mathieu Salzmann

分类: cs.CL

发布日期: 2025-02-10 (更新: 2025-06-27)

备注: ICML 2025

🔗 代码/项目: GITHUB


💡 一句话要点

揭示大语言模型奇异缺陷:基于奇异向量分析高范数Token现象

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 奇异值分解 高范数Token 模型量化 模型签名

📋 核心要点

  1. 现有方法未能充分解释LLM中高范数Token的成因,缺乏针对LLM特性的分析框架。
  2. 该研究通过分析LLM层线性近似的奇异向量,揭示了高范数Token的产生机制。
  3. 实验验证了理论分析,并展示了其在量化方案改进和LLM签名设计中的应用。

📝 摘要(中文)

大型Transformer模型常产生高范数Token。在视觉Transformer(ViT)中,此类Token已通过层线性近似的奇异向量进行数学建模。然而,在大语言模型(LLM)中,高范数Token的根本原因在很大程度上仍未被探索,且其与ViT的不同特性需要新的分析框架。本文对一系列最新模型进行了理论分析和实证验证,得出以下结论:i)逐层奇异方向预测了LLM中Token范数的突增。ii)层的负特征值解释了其突然衰减。iii)导致高范数Token的计算路径在初始Token和非初始Token之间存在差异。iv)高范数Token由近似对应模块的矩阵的右主奇异向量触发。我们展示了这些发现的两个实际应用:改进量化方案和设计LLM签名。我们的发现不仅加深了对LLM中奇异缺陷的理解,而且为它们的应用开辟了新途径。我们期望这项工作将激发对LLM内部机制的进一步研究。

🔬 方法详解

问题定义:大语言模型(LLM)中存在高范数Token现象,即某些Token的向量范数异常高。现有研究对视觉Transformer(ViT)中的类似现象进行了分析,但LLM与ViT的结构和特性差异很大,导致ViT的分析方法无法直接应用于LLM。因此,如何理解和解释LLM中高范数Token的成因,以及如何利用这些知识来改进LLM的性能,是一个亟待解决的问题。

核心思路:该论文的核心思路是通过分析LLM各层的线性近似的奇异值和奇异向量,来揭示高范数Token的产生机制。具体来说,论文假设高范数Token的出现与模型中某些层的奇异值分布有关,特别是与主奇异值和对应的奇异向量有关。通过研究这些奇异值和奇异向量,可以了解哪些层对高范数Token的产生起关键作用,以及哪些输入Token更容易导致高范数Token的出现。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 对LLM的每一层进行线性近似,得到一个矩阵表示。2) 对该矩阵进行奇异值分解(SVD),得到奇异值和奇异向量。3) 分析奇异值和奇异向量的分布,特别是关注主奇异值和对应的奇异向量。4) 将奇异值和奇异向量与高范数Token的出现联系起来,建立理论模型。5) 通过实验验证理论模型的有效性。

关键创新:该论文的关键创新在于将奇异值分解(SVD)应用于分析LLM中的高范数Token现象。与以往的研究不同,该论文没有直接将ViT的分析方法应用于LLM,而是针对LLM的特性,提出了基于奇异值分解的新的分析框架。此外,该论文还发现了负特征值与Token范数衰减之间的关系,以及初始Token和非初始Token在高范数Token产生机制上的差异。

关键设计:论文的关键设计包括:1) 选择合适的LLM模型进行分析,包括一系列最新的模型。2) 设计合理的实验来验证理论模型的有效性,例如,通过控制输入Token来观察高范数Token的出现。3) 将研究结果应用于实际问题,例如,改进量化方案和设计LLM签名。论文还仔细研究了不同层的奇异值分布,并分析了主奇异向量对高范数Token的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究通过实验验证了理论分析的有效性,发现逐层奇异方向可以预测LLM中Token范数的突增,层的负特征值可以解释其突然衰减。此外,研究还发现初始Token和非初始Token在高范数Token产生机制上存在差异。该研究还展示了其在改进量化方案和设计LLM签名方面的应用。

🎯 应用场景

该研究的成果可以应用于改进LLM的量化方案,从而降低模型的大小和计算复杂度,同时保持模型的性能。此外,还可以利用高范数Token的特性来设计LLM签名,用于模型版权保护和身份验证。该研究还有助于更深入地理解LLM的内部机制,为未来的模型设计和优化提供指导。

📄 摘要(原文)

Large transformer models are known to produce high-norm tokens. In vision transformers (ViTs), such tokens have been mathematically modeled through the singular vectors of the linear approximations of layers. However, in large language models (LLMs), the underlying causes of high-norm tokens remain largely unexplored, and their different properties from those of ViTs require a new analysis framework. In this paper, we provide both theoretical insights and empirical validation across a range of recent models, leading to the following observations: i) The layer-wise singular direction predicts the abrupt explosion of token norms in LLMs. ii) The negative eigenvalues of a layer explain its sudden decay. iii) The computational pathways leading to high-norm tokens differ between initial and noninitial tokens. iv) High-norm tokens are triggered by the right leading singular vector of the matrix approximating the corresponding modules. We showcase two practical applications of these findings: the improvement of quantization schemes and the design of LLM signatures. Our findings not only advance the understanding of singular defects in LLMs but also open new avenues for their application. We expect that this work will stimulate further research into the internal mechanisms of LLMs. Code is released at https://github.com/haoqiwang/singular_defect.