Modeling Open-World Cognition as On-Demand Synthesis of Probabilistic Models

📄 arXiv: 2507.12547v2 📥 PDF

作者: Lionel Wong, Katherine M. Collins, Lance Ying, Cedegao E. Zhang, Adrian Weller, Tobias Gerstenberg, Timothy O'Donnell, Alexander K. Lew, Jacob D. Andreas, Joshua B. Tenenbaum, Tyler Brooke-Wilson

分类: cs.CL, cs.AI, cs.PL

发布日期: 2025-07-16 (更新: 2025-07-18)

备注: Presented at CogSci 2025


💡 一句话要点

提出模型合成架构MSA,模拟开放世界认知中概率模型的按需合成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放世界认知 模型合成 语言模型 概率程序 因果推理

📋 核心要点

  1. 现有方法难以模拟人类在开放世界中利用广泛知识进行推理的能力。
  2. 提出模型合成架构MSA,结合语言模型和概率程序,按需构建定制心理模型。
  3. 实验表明,MSA在模拟人类判断方面优于仅使用语言模型的基线方法。

📝 摘要(中文)

当面对新情况时,人们能够从广泛的背景知识中提取相关信息,并将其用于推理和预测。是什么使我们能够提取全局相关信息并连贯地对其进行推理?本文探讨了一种假设,即人们使用分布式和符号表示的组合来构建为新情况量身定制的定制心理模型。我们提出了一种这种想法的计算实现——“模型合成架构”(MSA)——使用语言模型来实现基于全局相关性的检索和模型合成,并使用概率程序来实现定制的、连贯的世界模型。我们在一个新的推理数据集上评估了我们的MSA作为人类判断的模型。该数据集——围绕体育短剧的“模型奥林匹克”领域构建——通过要求(i)对语言描述的新型因果结构进行判断;(ii)借鉴大量的背景知识;以及(iii)根据引入任意新变量的观察结果进行判断,来测试模型对类人、开放式推理的能力。我们的MSA方法比仅使用语言模型的基线更好地捕捉了人类的判断,无论是在直接生成还是来自支持模型合成的LM的思维链生成下。这些结果表明,MSA可以以一种反映人们在全局相关变量上进行局部连贯推理的能力的方式来实现,从而为理解和复制开放领域中的人类推理提供了一条途径。

🔬 方法详解

问题定义:论文旨在解决如何让机器像人类一样,在面对新颖、开放式场景时,能够灵活地整合相关背景知识进行推理和预测的问题。现有方法,特别是仅依赖语言模型的方法,难以有效地从海量知识中提取相关信息,并构建连贯的推理模型,导致推理结果与人类直觉存在偏差。

核心思路:论文的核心思路是将开放世界认知建模为概率模型的按需合成过程。具体而言,利用语言模型作为知识检索和模型合成的工具,从全局知识库中提取与当前场景相关的知识片段,然后利用概率程序将这些知识片段组合成一个定制化的、连贯的心理模型。这种方法模拟了人类根据具体情境构建特定模型的认知过程。

技术框架:MSA架构包含以下主要模块:1) 知识检索模块:利用语言模型从背景知识库中检索与当前场景描述相关的知识片段。2) 模型合成模块:使用语言模型将检索到的知识片段组合成一个初步的概率模型。3) 概率程序执行模块:执行合成的概率程序,生成推理结果。4) 评估模块:将推理结果与人类判断进行比较,评估模型的性能。整个流程模拟了人类在面对新情况时,提取相关知识、构建心理模型并进行推理的过程。

关键创新:MSA的关键创新在于将语言模型和概率程序结合起来,实现知识的全局相关性检索和模型的局部连贯性推理。与传统的仅依赖语言模型的方法相比,MSA能够更好地模拟人类的认知过程,从而提高推理的准确性和可靠性。此外,MSA的按需合成特性使其能够灵活地适应不同的场景和任务。

关键设计:论文中,语言模型用于知识检索和模型合成,具体实现细节未知。概率程序使用某种概率编程语言(具体未知)进行编写,用于表示因果关系和进行概率推理。损失函数用于衡量模型预测与人类判断之间的差异,并用于优化语言模型的参数。数据集“模型奥林匹克”的设计旨在测试模型在复杂、开放式场景下的推理能力,包含对新型因果结构的判断,对大量背景知识的利用,以及对引入任意新变量的观察结果的推理。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MSA在“模型奥林匹克”数据集上显著优于仅使用语言模型的基线方法。无论是在直接生成还是思维链生成模式下,MSA都能更好地捕捉人类的判断。这些结果验证了MSA作为开放世界认知模型的有效性,并表明将语言模型和概率程序结合起来是一种有前景的途径。

🎯 应用场景

该研究成果可应用于智能体设计、人机交互、教育等领域。例如,可以构建能够理解复杂场景并进行合理推理的智能助手,或者开发能够根据学生知识背景和学习目标定制教学内容的智能教育系统。此外,该研究还有助于我们更深入地理解人类认知过程,为人工智能的发展提供新的思路。

📄 摘要(原文)

When faced with novel situations, people are able to marshal relevant considerations from a wide range of background knowledge and put these to use in inferences and predictions. What permits us to draw in globally relevant information and reason over it coherently? Here, we explore the hypothesis that people use a combination of distributed and symbolic representations to construct bespoke mental models tailored to novel situations. We propose a computational implementation of this idea -- a `Model Synthesis Architecture'' (MSA) -- using language models to implement global relevance-based retrieval and model synthesis and probabilistic programs to implement bespoke, coherent world models. We evaluate our MSA as a model of human judgments on a novel reasoning dataset. The dataset -- built around aModel Olympics` domain of sports vignettes -- tests models' capacity for human-like, open-ended reasoning by requiring (i) judgments about novel causal structures described in language; (ii) drawing on large bodies of background knowledge; and (iii) doing both in light of observations that introduce arbitrary novel variables. Our MSA approach captures human judgments better than language model-only baselines, under both direct and chain-of-thought generations from the LM that supports model synthesis. These results suggest that MSAs can be implemented in a way that mirrors people's ability to deliver locally coherent reasoning over globally relevant variables, offering a path to understanding and replicating human reasoning in open-ended domains.