Shared Global and Local Geometry of Language Model Embeddings
作者: Andrew Lee, Melanie Weber, Fernanda Viégas, Martin Wattenberg
分类: cs.CL, cs.LG
发布日期: 2025-03-27 (更新: 2025-07-15)
💡 一句话要点
揭示大语言模型嵌入的全局和局部几何相似性,并提出跨模型迁移方法。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型 嵌入空间 几何结构 局部线性嵌入 本征维度 知识迁移 模型可解释性
📋 核心要点
- 现有研究表明模型间存在共享表示,但缺乏对语言模型嵌入空间几何结构的深入分析。
- 本文通过分析全局和局部几何结构,揭示了不同语言模型token嵌入之间的相似性。
- 实验表明,token嵌入位于低维流形上,并提出了EMB2EMB方法实现跨模型迁移。
📝 摘要(中文)
本文研究发现,大型语言模型的token嵌入在几何结构上存在诸多相似性。首先,发现了“全局”相似性:token嵌入通常具有相似的相对方向。其次,通过局部线性嵌入(LLE)和一种简单的本征维度度量,刻画了局部几何结构,并基于此发现了token嵌入间的局部相似性。此外,本征维度分析表明,嵌入位于一个低维流形上,且本征维度较低的token往往具有语义上连贯的聚类,而本征维度较高的token则不然。基于这些发现,本文提出EMB2EMB,一种简单的线性变换方法,用于将steering vector从一个语言模型迁移到另一个,即使这两个模型具有不同的维度。
🔬 方法详解
问题定义:本文旨在研究不同大型语言模型(LLM)的token嵌入空间是否存在几何相似性。现有方法缺乏对嵌入空间几何结构的系统性分析,难以解释和利用不同模型之间的知识共享关系。
核心思路:本文的核心思路是,通过分析token嵌入的全局相对方向和局部几何结构(包括局部线性嵌入和本征维度),来揭示不同LLM之间token嵌入的相似性。这种相似性表明不同模型可能学习到了相似的语义表示。
技术框架:本文的研究框架主要包含以下几个阶段:1) 计算不同LLM的token嵌入;2) 分析全局几何结构,即token嵌入的相对方向;3) 分析局部几何结构,包括使用局部线性嵌入(LLE)进行降维和聚类,以及计算每个token嵌入的本征维度;4) 基于几何相似性的发现,提出EMB2EMB方法,用于跨模型迁移steering vector。
关键创新:本文的关键创新在于:1) 系统性地分析了LLM token嵌入的全局和局部几何结构,揭示了不同模型之间的相似性;2) 提出了一种简单的本征维度度量方法,用于评估token嵌入的局部复杂性;3) 基于几何相似性的发现,提出了EMB2EMB方法,实现了跨模型迁移。
关键设计:在局部几何结构分析中,使用了局部线性嵌入(LLE)来降低嵌入维度,并进行聚类分析。本征维度的计算方式为:首先计算每个token嵌入的k近邻,然后计算这些近邻的协方差矩阵,最后计算协方差矩阵的特征值,并使用这些特征值来估计本征维度。EMB2EMB方法使用线性变换矩阵将一个模型的steering vector映射到另一个模型。
🖼️ 关键图片
📊 实验亮点
研究发现,不同LLM的token嵌入在全局和局部几何结构上存在显著相似性。本征维度分析表明,token嵌入位于低维流形上,且本征维度较低的token往往具有语义上连贯的聚类。EMB2EMB方法成功地将steering vector从一个模型迁移到另一个模型,验证了嵌入空间相似性的有效性。
🎯 应用场景
该研究成果可应用于多个领域,例如:提升模型的可解释性,理解不同模型学习到的知识表示;实现跨模型知识迁移,例如将一个模型的steering vector迁移到另一个模型,以控制模型的生成行为;模型压缩和蒸馏,通过利用嵌入空间的相似性,可以将大型模型的知识迁移到小型模型。
📄 摘要(原文)
Researchers have recently suggested that models share common representations. In our work, we find numerous geometric similarities across the token embeddings of large language models. First, we find ``global'' similarities: token embeddings often share similar relative orientations. Next, we characterize local geometry in two ways: (1) by using Locally Linear Embeddings, and (2) by defining a simple measure for the intrinsic dimension of each embedding. Both characterizations allow us to find local similarities across token embeddings. Additionally, our intrinsic dimension demonstrates that embeddings lie on a lower dimensional manifold, and that tokens with lower intrinsic dimensions often have semantically coherent clusters, while those with higher intrinsic dimensions do not. Based on our findings, we introduce EMB2EMB, a simple application to linearly transform steering vectors from one language model to another, despite the two models having different dimensions.