MetaOthello: A Controlled Study of Multiple World Models in Transformers

📄 arXiv: 2602.23164v1 📥 PDF

作者: Aviral Chawla, Galen Hall, Juniper Lovato

分类: cs.LG

发布日期: 2026-02-26


💡 一句话要点

MetaOthello:研究Transformer中多个世界模型的受控实验

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 世界模型 Transformer Othello 机制可解释性 多任务学习

📋 核心要点

  1. Transformer模型需要处理多个生成过程,但对其组织多个世界模型的方式尚不明确。
  2. 论文提出MetaOthello,一套具有共享语法但不同规则的Othello变体,用于研究Transformer如何组织多个世界模型。
  3. 实验表明,Transformer在混合游戏数据上训练时,会学习共享的棋盘状态表示,且线性探针可在不同变体间进行有效干预。

📝 摘要(中文)

基础模型必须处理多个生成过程,然而机制可解释性主要研究孤立的能力;目前尚不清楚单个Transformer如何组织多个、可能冲突的“世界模型”。先前在Othello游戏中神经网络的实验测试了世界模型的学习,但侧重于具有单一规则集的单一游戏。我们引入了MetaOthello,这是一套受控的Othello变体,具有共享的语法但不同的规则或tokenization,并在混合变体数据上训练小型GPT,以研究多个世界模型如何在共享表示空间中组织。我们发现,在混合游戏数据上训练的Transformer不会将其容量划分为孤立的子模型;相反,它们收敛于一个主要共享的棋盘状态表示,该表示在变体之间进行因果转移。在一种变体上训练的线性探针可以干预另一种变体的内部状态,其有效性接近于匹配的探针。对于具有token重新映射的同构游戏,表示等价到单个正交旋转,该旋转在各层之间泛化。当规则部分重叠时,早期层保持游戏无关的表示,而中间层识别游戏身份,而后面的层则专门化。MetaOthello提供了一条理解Transformer不仅是否学习世界模型,而且如何一次组织多个世界模型的途径。

🔬 方法详解

问题定义:现有研究主要集中在单个游戏规则下的世界模型学习,缺乏对Transformer如何组织和管理多个不同规则世界模型的深入理解。现有方法难以解释Transformer在处理多个、可能冲突的生成过程时的内部机制。

核心思路:论文的核心思路是构建一个受控的实验环境,即MetaOthello,通过改变Othello游戏的规则和tokenization方式,创建多个具有共享语法但不同语义的变体。然后,在混合变体数据上训练Transformer模型,观察其内部表示如何组织和区分这些不同的世界模型。

技术框架:MetaOthello框架包含以下几个关键部分:1) Othello游戏变体的设计,包括规则变体和tokenization变体;2) 在混合变体数据上训练小型GPT模型;3) 使用线性探针分析模型内部表示,观察其在不同变体之间的迁移能力;4) 通过干预实验,验证模型内部表示的因果关系。

关键创新:论文的关键创新在于MetaOthello数据集的设计,它提供了一个受控的环境,可以系统地研究Transformer如何学习和组织多个世界模型。此外,论文还发现Transformer在处理多个游戏变体时,不会简单地划分容量,而是学习到一个共享的棋盘状态表示,这与以往的认知有所不同。

关键设计:论文的关键设计包括:1) Othello规则变体的设计,例如改变吃子的方式或棋盘大小;2) Tokenization变体的设计,例如使用不同的符号表示棋盘状态;3) 线性探针的训练和使用,用于分析模型内部表示;4) 干预实验的设计,用于验证模型内部表示的因果关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Transformer在混合游戏数据上训练时,会学习到一个共享的棋盘状态表示,该表示在不同游戏变体之间具有因果迁移能力。线性探针在一种变体上训练后,可以有效地干预另一种变体的内部状态。对于同构游戏,表示等价到单个正交旋转。当规则部分重叠时,模型早期层保持游戏无关的表示,中间层识别游戏身份,后期层进行专门化处理。

🎯 应用场景

该研究成果有助于理解大型语言模型如何处理和组织多个知识领域,为提升模型在多任务学习、知识迁移和泛化能力方面的性能提供理论基础。潜在应用包括开发更鲁棒、更灵活的AI系统,能够更好地适应复杂多变的环境。

📄 摘要(原文)

Foundation models must handle multiple generative processes, yet mechanistic interpretability largely studies capabilities in isolation; it remains unclear how a single transformer organizes multiple, potentially conflicting "world models". Previous experiments on Othello playing neural-networks test world-model learning but focus on a single game with a single set of rules. We introduce MetaOthello, a controlled suite of Othello variants with shared syntax but different rules or tokenizations, and train small GPTs on mixed-variant data to study how multiple world models are organized in a shared representation space. We find that transformers trained on mixed-game data do not partition their capacity into isolated sub-models; instead, they converge on a mostly shared board-state representation that transfers causally across variants. Linear probes trained on one variant can intervene on another's internal state with effectiveness approaching that of matched probes. For isomorphic games with token remapping, representations are equivalent up to a single orthogonal rotation that generalizes across layers. When rules partially overlap, early layers maintain game-agnostic representations while a middle layer identifies game identity, and later layers specialize. MetaOthello offers a path toward understanding not just whether transformers learn world models, but how they organize many at once.