LLM world models are mental: Output layer evidence of brittle world model use in LLM mechanical reasoning

📄 arXiv: 2507.15521v1 📥 PDF

作者: Cole Robertson, Philip Wolff

分类: cs.AI

发布日期: 2025-07-21

备注: Manuscript comprises 14 pages, 4 figures, 4 tables in the Technical Appendix and Supplementary Material, and is under review at NeurIPS 2025


💡 一句话要点

利用认知科学方法评估LLM世界模型能力,揭示其机械推理的局限性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 世界模型 机械推理 认知科学 心智模型

📋 核心要点

  1. 现有方法难以有效评估LLM是否具备真实世界建模和推理能力,尤其是在机械系统等复杂场景下。
  2. 借鉴认知科学心智模型研究方法,设计滑轮系统问题,通过观察LLM的预测行为来推断其内部世界模型的质量。
  3. 实验表明LLM能利用简单启发式规则和空间关系,但在复杂结构推理方面存在局限性,提示其世界模型较为脆弱。

📝 摘要(中文)

大型语言模型(LLM)是构建和操纵内部世界模型,还是仅仅依赖于输出层token概率表示的统计关联?我们借鉴认知科学中人类心智模型研究的方法,使用TikZ渲染的刺激来测试LLM在滑轮系统问题上的表现。研究1考察LLM是否能估计机械效益(MA)。最先进的模型表现略高于偶然水平,但显著高于偶然水平,并且它们的估计值与真实MA显著相关。模型估计值与滑轮数量之间的显著相关性表明,模型采用了一种滑轮计数启发式方法,而不一定模拟滑轮系统来推导精确值。研究2通过探测LLM是否表示对MA估计至关重要的全局特征来测试这一点。模型评估了一个功能连接的滑轮系统和一个具有随机放置组件的虚假系统。在没有明确提示的情况下,模型以F1=0.8的成绩识别出功能系统具有更大的MA,表明LLM可以充分表示系统,从而区分混乱的系统和功能系统。研究3在此基础上,要求LLM比较功能系统和连接起来但不向重量传递力的匹配系统;LLM以F1=0.46的成绩识别出功能系统,表明是随机猜测。总的来说,这些发现与LLM操纵内部世界模型的概念相符,足以利用滑轮计数和MA之间的统计关联(研究1),并近似表示系统组件的空间关系(研究2)。但是,它们可能缺乏对细微结构连接进行推理的能力(研究3)。最后,我们提倡使用认知科学方法来评估人工智能系统的世界建模能力。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在机械推理任务中是否真正构建并利用了内部世界模型,或者仅仅依赖于统计关联。现有方法难以区分这两种机制,并且缺乏对LLM内部表征的深入理解。现有方法无法有效评估LLM是否具备真实世界建模和推理能力,尤其是在机械系统等复杂场景下。

核心思路:论文的核心思路是借鉴认知科学中人类心智模型的研究方法,将LLM视为一个认知主体,并通过设计特定的机械推理任务(滑轮系统问题)来观察其行为,从而推断其内部世界模型的性质。通过分析LLM在不同难度和类型的滑轮系统问题上的表现,可以揭示其推理能力的局限性和潜在的启发式策略。

技术框架:论文采用了三项研究来逐步评估LLM的世界建模能力: 1. 研究1:机械效益估计:评估LLM是否能估计滑轮系统的机械效益(MA),并分析其估计值与滑轮数量之间的关系。 2. 研究2:功能系统识别:测试LLM是否能区分功能连接的滑轮系统和随机放置组件的虚假系统。 3. 研究3:结构连接推理:要求LLM比较功能系统和连接起来但不传递力的匹配系统,以评估其对细微结构连接的推理能力。

关键创新:论文的关键创新在于将认知科学的方法引入到LLM的评估中,提供了一种新的视角来理解LLM的内部工作机制。通过设计精巧的实验,可以更深入地了解LLM的世界建模能力,并揭示其在复杂推理任务中的局限性。

关键设计: * 刺激设计:使用TikZ渲染滑轮系统图像,控制滑轮数量、连接方式等因素。 * 任务设计:包括机械效益估计、功能系统识别和结构连接推理三种任务。 * 评估指标:使用相关系数、F1分数等指标来评估LLM的性能。 * 模型选择:选择了当时最先进的LLM进行实验。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究表明,LLM在机械效益估计任务中表现略高于偶然水平,且估计值与滑轮数量显著相关,表明其可能采用滑轮计数启发式。在功能系统识别任务中,LLM表现良好(F1=0.8),但在结构连接推理任务中表现接近随机猜测(F1=0.46),揭示了其在复杂结构推理方面的局限性。

🎯 应用场景

该研究成果可应用于评估和改进LLM在物理世界理解和推理方面的能力,例如在机器人控制、智能制造等领域。通过了解LLM的局限性,可以设计更有效的提示工程策略,并开发更强大的世界模型。

📄 摘要(原文)

Do large language models (LLMs) construct and manipulate internal world models, or do they rely solely on statistical associations represented as output layer token probabilities? We adapt cognitive science methodologies from human mental models research to test LLMs on pulley system problems using TikZ-rendered stimuli. Study 1 examines whether LLMs can estimate mechanical advantage (MA). State-of-the-art models performed marginally but significantly above chance, and their estimates correlated significantly with ground-truth MA. Significant correlations between number of pulleys and model estimates suggest that models employed a pulley counting heuristic, without necessarily simulating pulley systems to derive precise values. Study 2 tested this by probing whether LLMs represent global features crucial to MA estimation. Models evaluated a functionally connected pulley system against a fake system with randomly placed components. Without explicit cues, models identified the functional system as having greater MA with F1=0.8, suggesting LLMs could represent systems well enough to differentiate jumbled from functional systems. Study 3 built on this by asking LLMs to compare functional systems with matched systems which were connected up but which transferred no force to the weight; LLMs identified the functional system with F1=0.46, suggesting random guessing. Insofar as they may generalize, these findings are compatible with the notion that LLMs manipulate internal world models, sufficient to exploit statistical associations between pulley count and MA (Study 1), and to approximately represent system components' spatial relations (Study 2). However, they may lack the facility to reason over nuanced structural connectivity (Study 3). We conclude by advocating the utility of cognitive scientific methods to evaluate the world-modeling capacities of artificial intelligence systems.