Chess-World-Model: A 10M-Game Benchmark for Exact State Tracking from Chess Move Sequences
作者: Benjamin Walker, Terry Lyons
分类: cs.LG
发布日期: 2026-05-28
备注: 20 pages, 4 figures
💡 一句话要点
提出Chess-World-Model:一个基于1000万棋局的精确状态追踪基准
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 世界模型 状态追踪 国际象棋 基准测试 循环神经网络 Transformer 分布外泛化
📋 核心要点
- 现有世界模型状态追踪基准多为合成或语言驱动,难以有效评估真实场景下结构化状态更新能力。
- 提出Chess-World-Model,利用1000万真实棋局构建大规模状态追踪基准,预测棋局序列后的精确棋盘状态。
- 实验表明,循环模型在参数量较小时优于Transformer,且随机均匀分布外测试能有效暴露模型规模隐藏的缺陷。
📝 摘要(中文)
世界模型需要状态追踪能力,即在动作序列中维持正确的潜在状态。现有的基准测试通常是合成的或基于语言的,限制了它们在现实领域中作为结构化状态更新测试的价值。我们引入了Chess-World-Model,这是一个大规模状态追踪基准,由1000万个真实的国际象棋游戏构建而成,模型预测在一段合法移动序列后达到的确切棋盘状态。除了保留的真实游戏分割外,我们还包括一个来自均匀随机合法游戏的分布外分割,用于测试模型是否学习了转换规则,而不是来自常见人类位置的捷径。先前的理论和实证工作表明,Transformer难以进行状态追踪,而输入相关的线性RNN需要表达性的状态转换矩阵才能做到这一点。因此,我们使用匹配的接口和训练协议对因果Transformer、块对角SLiCE、Mamba-3和具有负特征值的Gated DeltaNet进行了基准测试。循环模型在300万和800万参数下明显优于Transformer。真实游戏性能在超过1800万参数时饱和,但随机均匀分割在高达4000万参数时仍然具有区分性,暴露了模型规模可能隐藏的失败。此外,消融实验表明,对于所有三个循环模型,不太具表达性的状态转换机制会降低分布外分割的性能。总之,这些结果将Chess-World-Model确立为一个实用的、大规模的状态追踪基准,它可以暴露模型规模可能隐藏的失败。
🔬 方法详解
问题定义:现有世界模型的状态追踪能力评估benchmark存在不足,主要体现在benchmark的数据集通常是合成的或者基于语言的,这使得模型在真实场景下的结构化状态更新能力难以有效评估。因此,需要一个更贴近真实场景,且具有足够规模的数据集来评估模型的状态追踪能力。
核心思路:论文的核心思路是利用国际象棋游戏的特性,构建一个大规模的状态追踪benchmark。国际象棋游戏具有明确的规则和状态转移,且可以生成大量的游戏数据。通过让模型预测棋局序列后的精确棋盘状态,可以有效评估模型的状态追踪能力。此外,论文还引入了随机均匀分布外测试,以评估模型是否真正学习了规则,而不是仅仅依赖于人类棋局的统计规律。
技术框架:Chess-World-Model benchmark包含两个主要部分:真实游戏分割和随机均匀分割。真实游戏分割由1000万个真实的国际象棋游戏组成,用于评估模型在真实场景下的状态追踪能力。随机均匀分割由随机生成的合法棋局序列组成,用于评估模型是否真正学习了国际象棋的规则。论文使用统一的接口和训练协议,对Transformer、SLiCE、Mamba-3和Gated DeltaNet等模型进行了基准测试。
关键创新:该论文的关键创新在于提出了Chess-World-Model benchmark,这是一个大规模、贴近真实场景的状态追踪benchmark。该benchmark不仅包含真实游戏数据,还引入了随机均匀分布外测试,可以有效评估模型是否真正学习了规则。此外,论文还对多种模型进行了基准测试,并分析了模型在不同数据集上的性能差异。
关键设计:论文的关键设计包括:1) 使用1000万个真实的国际象棋游戏构建大规模数据集;2) 引入随机均匀分布外测试,以评估模型是否真正学习了规则;3) 使用统一的接口和训练协议,对多种模型进行基准测试;4) 对模型在不同数据集上的性能差异进行详细分析。论文还研究了不同状态转换机制对模型性能的影响,例如,消融实验表明,不太具表达性的状态转换机制会降低分布外分割的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,循环模型(SLiCE、Mamba-3、Gated DeltaNet)在参数量较小时(300万和800万参数)明显优于Transformer。真实游戏性能在超过1800万参数时饱和,但随机均匀分割在高达4000万参数时仍然具有区分性,暴露了模型规模可能隐藏的缺陷。消融实验表明,不太具表达性的状态转换机制会降低分布外分割的性能。
🎯 应用场景
该研究成果可应用于开发更强大的世界模型,提升机器人在复杂环境中的感知和决策能力。例如,在自动驾驶领域,更精确的状态追踪能力可以帮助车辆更好地理解周围环境,从而做出更安全的驾驶决策。此外,该benchmark也可以促进状态追踪算法的研究和发展。
📄 摘要(原文)
World models require state tracking, which is the ability to maintain a correct latent state across action sequences. Existing benchmarks are often synthetic or language-based, limiting their value as tests of structured state updates in realistic domains. We introduce Chess-World-Model, a large-scale state-tracking benchmark built from 10 million real chess games, where models predict the exact board state reached after a sequence of legal moves. Alongside a held-out real-game split, we include an out-of-distribution split from uniformly random legal play, which tests whether models learn the transition rules rather than shortcuts from common human positions. Prior theoretical and empirical work has shown that Transformers struggle to state-track, while input-dependent linear RNNs require expressive state-transition matrices to do so. We therefore benchmark a causal Transformer, block-diagonal SLiCE, Mamba-3, and Gated DeltaNet with negative eigenvalues under a matched interface and training protocol. The recurrent models strongly outperform the Transformer at 3 and 8 million parameters. Real-game performance saturates above 18 million parameters, but the random-uniform split remains discriminative up to 40 million, exposing failures otherwise hidden by scale. Additionally, ablations show that less expressive state-transition mechanisms reduce performance on the out-of-distribution split for all three recurrent models. Together, these results establish Chess-World-Model as a practical large-scale benchmark for state tracking that exposes failures model scale would otherwise conceal.