Emergence and Function of Abstract Representations in Self-Supervised Transformers

📄 arXiv: 2312.05361v1 📥 PDF

作者: Quentin RV. Ferry, Joshua Ching, Takashi Kawai

分类: cs.AI

发布日期: 2023-12-08


💡 一句话要点

研究Transformer在自监督学习中涌现抽象表征及其功能,揭示其决策机制。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自监督学习 Transformer 抽象表征 世界模型 组合性 可解释性 视觉场景理解

📋 核心要点

  1. 深度学习模型在泛化能力上存在不足,难以像人类一样快速适应新环境。
  2. 通过训练Transformer重建部分遮蔽的视觉场景,探索其学习抽象表征的能力。
  3. 实验表明,Transformer能够学习到编码语义特征的抽象表征,并以此进行决策。

📝 摘要(中文)

人类智能依赖于大脑创建抽象心理模型的能力,这些模型简洁地捕捉了现实的隐藏蓝图。这种抽象世界模型使我们能够通过泛化先验知识来快速应对新情况,而深度学习系统历来难以复制这一特性。然而,最近从监督目标到自监督目标的转变,结合基于Transformer的表达性架构,产生了强大的基础模型,这些模型似乎学习了通用的表征,可以支持广泛的下游任务。这项有希望的进展提出了一个有趣的可能性,即此类模型在计算机中发展抽象世界模型。我们通过研究小型Transformer的内部运作来测试这个假设,这些Transformer经过训练以重建从简单蓝图生成的部分掩蔽的视觉场景。我们表明,该网络发展了中间抽象表征,或抽象,其编码了数据集的所有语义特征。这些抽象表现为低维流形,其中语义相关token的嵌入瞬时收敛,从而允许下游计算的泛化。通过精确的操作实验,我们证明了抽象是网络决策过程的核心。我们的研究还表明,这些抽象在结构上是组合的,表现出诸如上下文独立性和部分-整体关系等特征,这些特征反映了数据集的组合性质。最后,我们引入了一种语言增强架构(LEA),旨在鼓励网络表达其计算。我们发现LEA发展了一种以抽象为中心的语言,这种语言很容易解释,使我们能够更容易地访问和引导网络的决策过程。

🔬 方法详解

问题定义:现有深度学习模型,尤其是在视觉领域,通常需要大量标注数据进行训练,且泛化能力有限。它们难以像人类一样,通过少量经验快速构建抽象模型并适应新环境。因此,如何让模型学习到更抽象、更通用的表征,是当前研究的重点。

核心思路:该论文的核心思路是,通过自监督学习的方式,让Transformer模型学习重建部分遮蔽的视觉场景。这种方式迫使模型学习场景的内在结构和语义关系,从而形成抽象表征。作者认为,这种抽象表征是模型进行泛化和决策的关键。

技术框架:该研究使用了一个小型Transformer模型,输入是部分遮蔽的视觉场景,目标是重建被遮蔽的部分。模型结构包括编码器和解码器,编码器将输入场景编码成潜在表征,解码器则利用该表征重建原始场景。此外,作者还引入了一种语言增强架构(LEA),鼓励模型用自然语言描述其计算过程。

关键创新:该论文的关键创新在于,它揭示了Transformer模型在自监督学习过程中,能够涌现出抽象表征,并证明了这些抽象表征在模型决策中的核心作用。此外,LEA架构的引入,使得研究人员能够更容易地理解和控制模型的行为。

关键设计:在训练过程中,作者使用了掩码语言模型(MLM)的目标函数,即预测被遮蔽的token。为了鼓励模型学习组合性表征,作者设计了具有组合性质的数据集。LEA架构通过引入一个额外的语言解码器,将模型的内部状态映射到自然语言描述,从而增强了模型的可解释性。

📊 实验亮点

实验结果表明,Transformer模型能够学习到编码数据集所有语义特征的抽象表征。这些抽象表征表现为低维流形,其中语义相关的token嵌入会瞬时收敛,从而实现下游计算的泛化。通过操作实验,作者证明了这些抽象表征是网络决策过程的核心。此外,LEA架构能够生成易于理解的语言描述,从而增强了模型的可解释性。

🎯 应用场景

该研究成果可应用于机器人导航、智能游戏、图像生成等领域。通过学习抽象表征,机器人可以更好地理解环境,从而实现更智能的导航和决策。在智能游戏中,模型可以利用抽象表征来预测对手的行为,从而制定更有效的策略。此外,该研究也有助于开发更具创造力的图像生成模型。

📄 摘要(原文)

Human intelligence relies in part on our brains' ability to create abstract mental models that succinctly capture the hidden blueprint of our reality. Such abstract world models notably allow us to rapidly navigate novel situations by generalizing prior knowledge, a trait deep learning systems have historically struggled to replicate. However, the recent shift from supervised to self-supervised objectives, combined with expressive transformer-based architectures, have yielded powerful foundation models that appear to learn versatile representations that can support a wide range of downstream tasks. This promising development raises the intriguing possibility of such models developing in silico abstract world models. We test this hypothesis by studying the inner workings of small-scale transformers trained to reconstruct partially masked visual scenes generated from a simple blueprint. We show that the network develops intermediate abstract representations, or abstractions, that encode all semantic features of the dataset. These abstractions manifest as low-dimensional manifolds where the embeddings of semantically related tokens transiently converge, thus allowing for the generalization of downstream computations. Using precise manipulation experiments, we demonstrate that abstractions are central to the network's decision-making process. Our research also suggests that these abstractions are compositionally structured, exhibiting features like contextual independence and part-whole relationships that mirror the compositional nature of the dataset. Finally, we introduce a Language-Enhanced Architecture (LEA) designed to encourage the network to articulate its computations. We find that LEA develops an abstraction-centric language that can be easily interpreted, allowing us to more readily access and steer the network's decision-making process.