Bridging the Dimensional Chasm: Uncover Layer-wise Dimensional Reduction in Transformers through Token Correlation

作者: Zhuo-Yang Song, Zeyu Li, Qing-Hong Cao, Ming-xing Luo, Hua Xing Zhu

分类: cs.CL, cs.LG

发布日期: 2025-03-28

备注: 17 pages, 9 figures, 2 tables

💡 一句话要点

通过Token相关性揭示Transformer层维度缩减现象，弥合高维计算与低维语义鸿沟

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 Transformer 维度缩减 Token表示 几何分析 模型可解释性 固有维度

📋 核心要点

现有大型语言模型使用高维嵌入处理低维语义信息，存在维度不匹配的问题，阻碍了模型的可解释性。
该论文提出了一种几何框架，通过分析Transformer层中token动态的固有维度，揭示了token表示的扩张-收缩模式。
研究发现有效的LLM倾向于将token压缩到约10维的子流形，并且工作空间维度与模型性能存在负相关。

📝 摘要（中文）

大型语言模型(LLM)中token表示的几何演化存在一个根本性的悖论：人类语言在本质上将语义信息组织在低维空间（约10维）中，而现代LLM采用高维嵌入（约1000维）并通过Transformer架构进行处理。为了解决这个悖论，本文通过开发一个几何框架来跟踪Transformer层中的token动态，从而弥合了这个概念上的差距。通过对多个架构的层间固有维度分析，我们揭示了一种扩张-收缩模式，其中token扩散到“工作空间”，然后逐步投影到低维子流形上。我们的发现表明，工作空间维度与LLM的参数敏感性能之间存在负相关关系，并表明有效的模型倾向于将token压缩到大约10维的子流形中，这与人类语义空间非常相似。这项工作不仅通过将Transformer层重新定义为在高维计算和低维语义之间进行调解的投影器来提高LLM的可解释性，而且还提供了不依赖于特定任务评估的模型诊断实用工具。

🔬 方法详解

问题定义：大型语言模型（LLM）使用高维向量表示token，这与人类语言的低维语义空间存在显著差异。这种高维表示增加了计算复杂性，并且使得理解模型内部运作机制变得困难。现有方法缺乏对Transformer层中token维度变化的深入理解，难以解释高维计算如何最终产生低维语义。

核心思路：该论文的核心思路是通过分析Transformer层中token表示的固有维度，揭示token在不同层之间的维度变化模式。通过跟踪token在每一层的维度变化，可以理解模型如何在高维空间中进行计算，并将信息压缩到低维语义空间。这种分析有助于理解Transformer架构如何弥合高维计算和低维语义之间的差距。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 选择多个不同架构的LLM进行分析。2) 对于每个模型，计算每一层token表示的固有维度。3) 分析固有维度在不同层之间的变化趋势，识别扩张-收缩模式。4) 研究工作空间维度与模型性能之间的关系。5) 将token压缩后的维度与人类语义空间的维度进行比较。

关键创新：该论文的关键创新在于提出了一个几何框架，用于分析Transformer层中token表示的维度变化。通过这个框架，揭示了token表示的扩张-收缩模式，并发现有效的LLM倾向于将token压缩到与人类语义空间相似的维度。此外，该研究还发现工作空间维度与模型性能之间存在负相关关系，这为模型设计和优化提供了新的思路。

关键设计：论文中关键的设计包括：1) 使用固有维度作为衡量token表示维度的指标。2) 设计实验来分析不同架构LLM的维度变化模式。3) 使用参数敏感性能作为评估模型性能的指标。4) 将token压缩后的维度与人类语义空间的维度进行比较，验证模型的有效性。

🖼️ 关键图片

📊 实验亮点

研究发现，Transformer层存在token表示的扩张-收缩模式，有效的LLM倾向于将token压缩到约10维的子流形，与人类语义空间相似。工作空间维度与模型参数敏感性能之间存在负相关关系，表明压缩能力强的模型性能更好。该研究提供了一种不依赖于特定任务的模型诊断工具。

🎯 应用场景

该研究成果可应用于LLM的诊断和优化，例如通过监控token的维度变化来评估模型的健康状况，或通过调整模型结构来优化token的维度压缩过程。此外，该研究还有助于提高LLM的可解释性，并为设计更高效、更符合人类语言特性的LLM提供指导。

📄 摘要（原文）

The geometric evolution of token representations in large language models (LLMs) presents a fundamental paradox: while human language inherently organizes semantic information in low-dimensional spaces ($\sim 10^1$ dimensions), modern LLMs employ high-dimensional embeddings ($\sim 10^3$ dimensions) processed through Transformer architectures. To resolve this paradox, this work bridges this conceptual gap by developing a geometric framework that tracks token dynamics across Transformers layers. Through layer-wise analysis of intrinsic dimensions across multiple architectures, we reveal an expansion-contraction pattern where tokens diffuse to a "working space" and then progressively project onto lower-dimensional submanifolds. Our finding implies a negative correlation between the working space dimension and parameter-sensitive performance of the LLMs, and indicates that effective models tend to compress tokens into approximately 10-dimensional submanifolds, closely resembling human semantic spaces. This work not only advances LLM interpretability by reframing Transformers layers as projectors that mediate between high-dimensional computation and low-dimensional semantics, but also provides practical tools for model diagnostics that do not rely on task-specific evaluations.

Bridging the Dimensional Chasm: Uncover Layer-wise Dimensional Reduction in Transformers through Token Correlation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理