Geometric Factual Recall in Transformers

作者: Shauli Ravfogel, Gilad Yehudai, Joan Bruna, Alberto Bietti

分类: cs.CL

发布日期: 2026-05-12

备注: Preprint

💡 一句话要点

揭示Transformer中几何事实记忆机制，突破参数线性增长瓶颈

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Transformer 几何记忆 事实记忆 关系推理 嵌入学习

📋 核心要点

传统Transformer记忆事实依赖参数量线性增长，效率低且泛化性差。
论文提出几何记忆机制，通过嵌入编码关系结构，MLP进行关系选择，降低参数需求。
实验证明该机制有效，且训练后的MLP能零样本迁移到新事实，展现泛化能力。

📝 摘要（中文）

Transformer语言模型如何记忆事实关联？传统观点认为内部权重矩阵是嵌入对的联想记忆，参数数量随事实数量线性增长。本文提出一种替代的、几何形式的记忆机制，其中学习到的嵌入直接编码关系结构，MLP扮演不同的角色。在受控环境中，单层Transformer必须记忆从主体到共享属性集合的随机双射，我们证明对数级的嵌入维度就足够了：主体嵌入编码其相关属性向量的线性叠加，小型MLP充当关系条件选择器，通过ReLU门控提取相关属性，而不是作为联想键值映射。我们将这些结果扩展到多跳设置——关系查询链，例如“x的妻子的母亲是谁？”——提供有无思维链的构造，展示了可证明的容量-深度权衡，并辅以匹配的信息论下界。实验上，梯度下降发现了具有精确预测结构的解。一旦训练完成，当主体嵌入被适当地重新初始化时，MLP可以零样本迁移到全新的双射，表明它已经学习了一种通用的选择机制，而不是记忆任何特定的事实集合。

🔬 方法详解

问题定义：Transformer语言模型在记忆事实性知识时，通常被认为是将知识存储在权重矩阵中，这导致参数量随着知识量的增加而线性增长，带来了巨大的计算和存储负担。现有的方法难以解释Transformer如何高效地存储和检索这些知识，并且缺乏对模型泛化能力的理论分析。

核心思路：本文的核心思路是提出一种“几何记忆”的机制，即Transformer不是通过简单的键值对映射来存储事实，而是将事实之间的关系编码到嵌入空间中。具体来说，主体（subject）的嵌入向量被设计成其相关属性（attribute）向量的线性叠加。这样，模型可以通过学习嵌入空间中的几何结构来表示事实之间的关系，从而避免了参数量的线性增长。

技术框架：该研究主要关注单层Transformer模型，并设计了一个受控的实验环境，其中模型需要学习从主体到属性的随机双射关系。整体框架包括以下几个关键模块：1) 主体嵌入层：将每个主体映射到一个低维的嵌入向量。2) 属性嵌入层：将每个属性映射到一个低维的嵌入向量。3) MLP层：根据输入的关系类型，从主体嵌入中选择出相关的属性向量。4) 输出层：将选择出的属性向量映射到最终的预测结果。

关键创新：该论文最重要的技术创新在于提出了几何记忆的概念，并证明了在特定的条件下，只需要对数级别的嵌入维度就可以有效地存储和检索事实性知识。与传统的键值对记忆方法相比，几何记忆更加高效，并且具有更好的泛化能力。此外，该研究还对多跳关系查询进行了理论分析，并提出了相应的模型结构。

关键设计：在单层Transformer模型中，关键的设计包括：1) 主体嵌入向量被设计成其相关属性向量的线性叠加，叠加系数由关系类型决定。2) MLP层使用ReLU激活函数，充当关系条件选择器，通过门控机制选择出相关的属性向量。3) 损失函数采用交叉熵损失，用于优化模型的参数。在多跳关系查询中，论文提出了有无思维链两种模型结构，并分析了它们的容量-深度权衡。

🖼️ 关键图片

📊 实验亮点

实验结果表明，梯度下降能够有效地学习到论文提出的几何记忆结构。在单层Transformer模型中，只需要对数级别的嵌入维度就可以有效地记忆随机双射关系。更重要的是，训练后的MLP层可以零样本迁移到全新的双射关系，表明它已经学习了一种通用的选择机制，而不是记忆任何特定的事实集合。这验证了几何记忆机制的泛化能力。

🎯 应用场景

该研究成果可应用于知识图谱推理、问答系统、信息检索等领域。通过更高效地存储和检索事实性知识，可以提升这些应用在处理复杂查询时的性能和效率。此外，该研究对于理解Transformer模型的内部机制以及提升其泛化能力具有重要的理论意义，为未来设计更高效、更智能的语言模型提供了新的思路。

📄 摘要（原文）

How do transformer language models memorize factual associations? A common view casts internal weight matrices as associative memories over pairs of embeddings, requiring parameter counts that scale linearly with the number of facts. We develop a theoretical and empirical account of an alternative, \emph{geometric} form of memorization in which learned embeddings encode relational structure directly, and the MLP plays a qualitatively different role. In a controlled setting where a single-layer transformer must memorize random bijections from subjects to a shared attribute set, we prove that a logarithmic embedding dimension suffices: subject embeddings encode \emph{linear superpositions} of their associated attribute vectors, and a small MLP acts as a relation-conditioned selector that extracts the relevant attribute via ReLU gating, and not as an associative key-value mapping. We extend these results to the multi-hop setting -- chains of relational queries such as ``Who is the mother of the wife of $x$?'' -- providing constructions with and without chain-of-thought that exhibit a provable capacity-depth tradeoff, complemented by a matching information-theoretic lower bound. Empirically, gradient descent discovers solutions with precisely the predicted structure. Once trained, the MLP transfers zero-shot to entirely new bijections when subject embeddings are appropriately re-initialized, revealing that it has learned a generic selection mechanism rather than memorized any particular set of facts.

Geometric Factual Recall in Transformers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理