Geometric Factual Recall in Transformers
作者: Shauli Ravfogel, Gilad Yehudai, Joan Bruna, Alberto Bietti
分类: cs.CL
发布日期: 2026-05-12
备注: Preprint
💡 一句话要点
揭示Transformer中几何事实记忆机制,突破参数线性增长瓶颈
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Transformer 几何记忆 事实记忆 关系推理 嵌入学习
📋 核心要点
- 传统Transformer记忆事实依赖参数量线性增长,效率低且泛化性差。
- 论文提出几何记忆机制,通过嵌入编码关系结构,MLP进行关系选择,降低参数需求。
- 实验证明该机制有效,且训练后的MLP能零样本迁移到新事实,展现泛化能力。
📝 摘要(中文)
Transformer语言模型如何记忆事实关联?传统观点认为内部权重矩阵是嵌入对的联想记忆,参数数量随事实数量线性增长。本文提出一种替代的、几何形式的记忆机制,其中学习到的嵌入直接编码关系结构,MLP扮演不同的角色。在受控环境中,单层Transformer必须记忆从主体到共享属性集合的随机双射,我们证明对数级的嵌入维度就足够了:主体嵌入编码其相关属性向量的线性叠加,小型MLP充当关系条件选择器,通过ReLU门控提取相关属性,而不是作为联想键值映射。我们将这些结果扩展到多跳设置——关系查询链,例如“x的妻子的母亲是谁?”——提供有无思维链的构造,展示了可证明的容量-深度权衡,并辅以匹配的信息论下界。实验上,梯度下降发现了具有精确预测结构的解。一旦训练完成,当主体嵌入被适当地重新初始化时,MLP可以零样本迁移到全新的双射,表明它已经学习了一种通用的选择机制,而不是记忆任何特定的事实集合。
🔬 方法详解
问题定义:Transformer语言模型在记忆事实性知识时,通常被认为是将知识存储在权重矩阵中,这导致参数量随着知识量的增加而线性增长,带来了巨大的计算和存储负担。现有的方法难以解释Transformer如何高效地存储和检索这些知识,并且缺乏对模型泛化能力的理论分析。
核心思路:本文的核心思路是提出一种“几何记忆”的机制,即Transformer不是通过简单的键值对映射来存储事实,而是将事实之间的关系编码到嵌入空间中。具体来说,主体(subject)的嵌入向量被设计成其相关属性(attribute)向量的线性叠加。这样,模型可以通过学习嵌入空间中的几何结构来表示事实之间的关系,从而避免了参数量的线性增长。
技术框架:该研究主要关注单层Transformer模型,并设计了一个受控的实验环境,其中模型需要学习从主体到属性的随机双射关系。整体框架包括以下几个关键模块:1) 主体嵌入层:将每个主体映射到一个低维的嵌入向量。2) 属性嵌入层:将每个属性映射到一个低维的嵌入向量。3) MLP层:根据输入的关系类型,从主体嵌入中选择出相关的属性向量。4) 输出层:将选择出的属性向量映射到最终的预测结果。
关键创新:该论文最重要的技术创新在于提出了几何记忆的概念,并证明了在特定的条件下,只需要对数级别的嵌入维度就可以有效地存储和检索事实性知识。与传统的键值对记忆方法相比,几何记忆更加高效,并且具有更好的泛化能力。此外,该研究还对多跳关系查询进行了理论分析,并提出了相应的模型结构。
关键设计:在单层Transformer模型中,关键的设计包括:1) 主体嵌入向量被设计成其相关属性向量的线性叠加,叠加系数由关系类型决定。2) MLP层使用ReLU激活函数,充当关系条件选择器,通过门控机制选择出相关的属性向量。3) 损失函数采用交叉熵损失,用于优化模型的参数。在多跳关系查询中,论文提出了有无思维链两种模型结构,并分析了它们的容量-深度权衡。
🖼️ 关键图片
📊 实验亮点
实验结果表明,梯度下降能够有效地学习到论文提出的几何记忆结构。在单层Transformer模型中,只需要对数级别的嵌入维度就可以有效地记忆随机双射关系。更重要的是,训练后的MLP层可以零样本迁移到全新的双射关系,表明它已经学习了一种通用的选择机制,而不是记忆任何特定的事实集合。这验证了几何记忆机制的泛化能力。
🎯 应用场景
该研究成果可应用于知识图谱推理、问答系统、信息检索等领域。通过更高效地存储和检索事实性知识,可以提升这些应用在处理复杂查询时的性能和效率。此外,该研究对于理解Transformer模型的内部机制以及提升其泛化能力具有重要的理论意义,为未来设计更高效、更智能的语言模型提供了新的思路。
📄 摘要(原文)
How do transformer language models memorize factual associations? A common view casts internal weight matrices as associative memories over pairs of embeddings, requiring parameter counts that scale linearly with the number of facts. We develop a theoretical and empirical account of an alternative, \emph{geometric} form of memorization in which learned embeddings encode relational structure directly, and the MLP plays a qualitatively different role. In a controlled setting where a single-layer transformer must memorize random bijections from subjects to a shared attribute set, we prove that a logarithmic embedding dimension suffices: subject embeddings encode \emph{linear superpositions} of their associated attribute vectors, and a small MLP acts as a relation-conditioned selector that extracts the relevant attribute via ReLU gating, and not as an associative key-value mapping. We extend these results to the multi-hop setting -- chains of relational queries such as ``Who is the mother of the wife of $x$?'' -- providing constructions with and without chain-of-thought that exhibit a provable capacity-depth tradeoff, complemented by a matching information-theoretic lower bound. Empirically, gradient descent discovers solutions with precisely the predicted structure. Once trained, the MLP transfers zero-shot to entirely new bijections when subject embeddings are appropriately re-initialized, revealing that it has learned a generic selection mechanism rather than memorized any particular set of facts.