MetaOthello: A Controlled Study of Multiple World Models in Transformers

📄 arXiv: 2602.23164 📥 PDF

作者: Aviral Chawla, Galen Hall, Juniper Lovato

分类: cs.LG

发布日期: 2026-02-28


💡 一句话要点

MetaOthello:研究Transformer中多个世界模型的受控实验平台

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 世界模型 Transformer 多任务学习 机制可解释性 Othello 线性探针 知识迁移

📋 核心要点

  1. 现有研究缺乏对Transformer如何组织多个世界模型的理解,尤其是在规则或token化不同的情况下。
  2. 论文提出MetaOthello,一个包含多种Othello变体的受控实验平台,用于研究Transformer如何学习和组织多个世界模型。
  3. 实验表明,Transformer倾向于学习共享的棋盘状态表示,并且线性探针可以在不同变体之间进行有效干预。

📝 摘要(中文)

基础模型必须处理多个生成过程,但机制可解释性主要研究孤立的能力;目前尚不清楚单个Transformer如何组织多个、可能冲突的“世界模型”。先前关于Othello博弈神经网络的实验测试了世界模型的学习,但侧重于具有单一规则集的单一游戏。我们引入了MetaOthello,这是一个受控的Othello变体套件,具有共享的语法但不同的规则或token化方式,并在混合变体数据上训练小型GPT,以研究多个世界模型如何在共享表示空间中组织。我们发现,在混合游戏数据上训练的Transformer不会将其容量划分为孤立的子模型;相反,它们收敛于一个主要共享的棋盘状态表示,该表示在变体之间进行因果传递。在一个变体上训练的线性探针可以干预另一个变体的内部状态,其有效性接近匹配探针。对于具有token重映射的同构游戏,表示等价于单个正交旋转,该旋转在各层之间泛化。当规则部分重叠时,早期层保持游戏无关的表示,而中间层识别游戏身份,而后面的层则专门化。MetaOthello提供了一条理解Transformer不仅是否学习世界模型,而且如何一次组织多个世界模型的途径。

🔬 方法详解

问题定义:现有的Transformer模型在处理需要多个“世界模型”的任务时,其内部表征和机制尚不明确。特别是,当模型需要同时学习多个具有不同规则或token化的任务时,如何组织这些知识,以及这些知识之间是否存在干扰或共享,是亟待解决的问题。以往的Othello博弈研究主要集中于单一规则集,无法有效探究多世界模型的组织方式。

核心思路:论文的核心思路是通过构建一个受控的多任务学习环境,即MetaOthello,来研究Transformer如何学习和组织多个Othello变体的世界模型。通过控制不同变体之间的规则差异和token化方式,可以更清晰地观察Transformer内部表征的变化和知识迁移情况。

技术框架:MetaOthello包含多个Othello变体,这些变体共享相同的语法结构,但具有不同的规则或token化方式。论文使用小型GPT模型在混合了多个变体的数据集上进行训练。训练完成后,通过线性探针和干预实验,分析Transformer内部不同层级的表征,以及这些表征在不同变体之间的迁移能力。

关键创新:MetaOthello作为一个受控的多世界模型学习环境,允许研究者系统地研究Transformer如何处理和组织多个不同的规则集。此外,通过线性探针和干预实验,可以深入了解Transformer内部表征的因果关系和知识迁移机制。

关键设计:论文设计了多种Othello变体,包括规则完全相同但token化方式不同的变体,以及规则部分重叠的变体。通过比较不同变体之间的表征相似性和迁移能力,可以分析Transformer如何区分和利用不同的世界模型。线性探针被用于预测Transformer内部状态,并通过干预实验来验证这些预测的因果关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Transformer在混合游戏数据上训练时,倾向于学习共享的棋盘状态表示,而不是将容量划分为孤立的子模型。线性探针可以在不同变体之间进行有效干预,表明知识可以在不同世界模型之间迁移。对于同构游戏,表示等价于一个正交旋转,该旋转在各层之间泛化。

🎯 应用场景

该研究成果有助于理解大型语言模型如何处理和组织多个知识领域,并为开发更高效、更可控的多任务学习模型提供指导。潜在应用包括:开发能够处理不同语言、文化或专业领域的通用人工智能系统;构建能够适应不同环境和规则的机器人;以及提高模型的可解释性和可控性。

📄 摘要(原文)

Foundation models must handle multiple generative processes, yet mechanistic interpretability largely studies capabilities in isolation; it remains unclear how a single transformer organizes multiple, potentially conflicting "world models". Previous experiments on Othello playing neural-networks test world-model learning but focus on a single game with a single set of rules. We introduce MetaOthello, a controlled suite of Othello variants with shared syntax but different rules or tokenizations, and train small GPTs on mixed-variant data to study how multiple world models are organized in a shared representation space. We find that transformers trained on mixed-game data do not partition their capacity into isolated sub-models; instead, they converge on a mostly shared board-state representation that transfers causally across variants. Linear probes trained on one variant can intervene on another's internal state with effectiveness approaching that of matched probes. For isomorphic games with token remapping, representations are equivalent up to a single orthogonal rotation that generalizes across layers. When rules partially overlap, early layers maintain game-agnostic representations while a middle layer identifies game identity, and later layers specialize. MetaOthello offers a path toward understanding not just whether transformers learn world models, but how they organize many at once.