Centaur: a foundation model of human cognition

📄 arXiv: 2410.20268v3 📥 PDF

作者: Marcel Binz, Elif Akata, Matthias Bethge, Franziska Brändle, Fred Callaway, Julian Coda-Forno, Peter Dayan, Can Demircan, Maria K. Eckstein, Noémi Éltető, Thomas L. Griffiths, Susanne Haridi, Akshay K. Jagadish, Li Ji-An, Alexander Kipnis, Sreejan Kumar, Tobias Ludwig, Marvin Mathony, Marcelo Mattar, Alireza Modirshanechi, Surabhi S. Nath, Joshua C. Peterson, Milena Rmus, Evan M. Russek, Tankred Saanum, Johannes A. Schubert, Luca M. Schulze Buschoff, Nishad Singhi, Xin Sui, Mirko Thalmann, Fabian Theis, Vuong Truong, Vishaal Udandarao, Konstantinos Voudouris, Robert Wilson, Kristin Witte, Shuchen Wu, Dirk Wulff, Huadong Xiong, Eric Schulz

分类: cs.LG

发布日期: 2024-10-26 (更新: 2025-04-28)


💡 一句话要点

Centaur:一个预测人类认知的基础模型,可模拟多种实验场景下的人类行为。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 认知建模 语言模型 人类行为预测 Psych-101数据集 认知科学 行为模拟 神经活动 基础模型

📋 核心要点

  1. 现有认知模型难以全面捕捉人类思维,缺乏统一性,无法在广泛场景下预测人类行为。
  2. Centaur通过在Psych-101数据集上微调语言模型,实现了对自然语言描述实验中人类行为的预测和模拟。
  3. 实验表明,Centaur在预测人类行为方面优于现有模型,并能泛化到新的任务和领域,且内部表征与人类神经活动更一致。

📝 摘要(中文)

心理学的一个主要目标是建立一个统一的认知理论。虽然之前已经尝试通过构建计算模型来实例化这些理论,但目前还没有一个模型能够完整地捕捉人类的思维。本文介绍Centaur,一个计算模型,可以预测和模拟自然语言表达的任何实验中人类的行为。Centaur是通过在一个名为Psych-101的新型大规模数据集上微调最先进的语言模型而得到的。Psych-101达到了前所未有的规模,涵盖了来自超过60,000名参与者的试验数据,他们在160个实验中进行了超过10,000,000次选择。Centaur不仅比现有的认知模型更好地捕捉了保留参与者的行为,而且还推广到新的封面故事、结构性任务修改和全新的领域。此外,我们发现微调后,该模型的内部表征与人类神经活动更加一致。总之,我们的结果表明,发现能够捕捉各种领域人类行为的计算模型是可能的。我们相信这样的模型为指导认知理论的发展提供了巨大的潜力,并提出了一个案例研究来证明这一点。

🔬 方法详解

问题定义:现有认知模型无法统一地、全面地模拟人类认知,难以在各种实验场景下准确预测人类行为。痛点在于缺乏一个能够覆盖广泛认知任务、并能有效泛化的通用模型。

核心思路:利用大规模语言模型强大的表征学习能力,通过在包含大量人类行为数据的Psych-101数据集上进行微调,使模型能够理解实验任务的自然语言描述,并预测人类在这些任务中的行为。这样设计的目的是将人类认知建模问题转化为一个语言理解和预测问题。

技术框架:Centaur的整体框架是基于一个预训练的语言模型(具体模型未知),然后在一个名为Psych-101的大规模数据集上进行微调。Psych-101数据集包含了超过60,000名参与者在160个实验中进行的超过10,000,000次选择的试验数据。模型接收实验任务的自然语言描述作为输入,输出是对人类行为的预测。

关键创新:Centaur的关键创新在于将大规模语言模型应用于人类认知建模,并构建了Psych-101数据集。与传统的认知模型相比,Centaur能够处理更复杂的任务描述,并具有更强的泛化能力。它将认知建模问题转化为一个语言理解和生成问题,从而能够利用预训练语言模型的强大能力。

关键设计:论文中没有详细说明微调过程中的具体参数设置、损失函数或网络结构等技术细节。但是,可以推断,微调过程可能使用了标准的语言模型微调技术,例如交叉熵损失函数,并可能对模型进行了适当的正则化以防止过拟合。具体的网络结构取决于所使用的预训练语言模型。

📊 实验亮点

Centaur在Psych-101数据集上表现出色,超越了现有的认知模型,能够更好地预测人类行为。它成功泛化到新的封面故事、结构性任务修改和全新的领域,表明其具有强大的泛化能力。此外,微调后,模型的内部表征与人类神经活动更加一致,进一步验证了其有效性。具体性能数据和提升幅度未知。

🎯 应用场景

Centaur模型可应用于认知科学研究,辅助理解人类认知机制,预测个体行为。在人机交互、教育、心理健康等领域具有潜在应用价值,例如设计更符合人类认知规律的智能系统,个性化教育方案,以及辅助心理疾病诊断和治疗。未来可能促进更深入的认知理论发展。

📄 摘要(原文)

Establishing a unified theory of cognition has been a major goal of psychology. While there have been previous attempts to instantiate such theories by building computational models, we currently do not have one model that captures the human mind in its entirety. A first step in this direction is to create a model that can predict human behavior in a wide range of settings. Here we introduce Centaur, a computational model that can predict and simulate human behavior in any experiment expressible in natural language. We derived Centaur by finetuning a state-of-the-art language model on a novel, large-scale data set called Psych-101. Psych-101 reaches an unprecedented scale, covering trial-by-trial data from over 60,000 participants performing over 10,000,000 choices in 160 experiments. Centaur not only captures the behavior of held-out participants better than existing cognitive models, but also generalizes to new cover stories, structural task modifications, and entirely new domains. Furthermore, we find that the model's internal representations become more aligned with human neural activity after finetuning. Taken together, our results demonstrate that it is possible to discover computational models that capture human behavior across a wide range of domains. We believe that such models provide tremendous potential for guiding the development of cognitive theories and present a case study to demonstrate this.