Cognitive phantoms in LLMs through the lens of latent variables
作者: Sanne Peereboom, Inga Schwabe, Bennett Kleinberg
分类: cs.AI, cs.HC
发布日期: 2024-09-06
DOI: 10.1016/j.chbah.2025.100161
💡 一句话要点
通过潜在变量视角揭示LLM中“认知幻影”现象,质疑心理测量学方法在LLM中的有效性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 心理测量学 机器行为 潜在变量建模 有效性 认知幻影 人格评估 问卷调查
📋 核心要点
- 现有研究使用心理测量问卷评估LLM,但忽略了问卷对LLM的有效性,即问卷是否真正测量了LLM的内在属性。
- 该研究通过比较人类和LLM在性格问卷上的潜在结构,检验了为人类设计的问卷在LLM上的有效性。
- 研究发现,为人类设计的问卷可能无法有效测量LLM中相似的结构,甚至这些结构可能根本不存在于LLM中。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地应用于现实世界,因此需要更好地理解其行为。LLM的规模和复杂性使得传统的评估方法变得困难,从而催生了受心理学领域启发的替代方法。最近的研究对LLM进行心理测量问卷调查,报告了LLM中存在类似人类的特征,这可能会影响LLM的行为。然而,这种方法存在有效性问题:它预先假定这些特征存在于LLM中,并且可以使用为人类设计的工具来测量它们。典型的程序很少承认LLM中的有效性问题,而是比较和解释LLM的平均分数。本研究通过使用两个经过验证的性格问卷比较人类和三个LLM之间的人格潜在结构来研究这个问题。研究结果表明,为人类设计的问卷无法有效地测量LLM中相似的结构,并且这些结构可能根本不存在于LLM中,这突出了对LLM响应进行心理测量分析以避免追逐认知幻影的必要性。
🔬 方法详解
问题定义:现有研究尝试通过心理测量问卷来评估大型语言模型(LLMs)的“人格”或“认知”特征,但这些问卷是为人类设计的,直接应用于LLMs存在有效性问题。即,这些问卷是否真的能够测量LLMs的内在属性,或者仅仅是测量了LLMs模仿人类语言模式的能力?现有方法通常忽略这一问题,直接比较和解释LLMs的平均得分,可能导致对LLMs的误解。
核心思路:该论文的核心思路是通过比较人类和LLMs在性格问卷上的潜在结构,来检验这些问卷在LLMs上的有效性。如果人类和LLMs在同一问卷上表现出相似的潜在结构,那么可以认为该问卷在一定程度上对LLMs有效。反之,如果潜在结构差异很大,则说明该问卷可能无法有效测量LLMs的内在属性。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择两个经过验证的人格问卷;2) 对人类和三个不同的LLMs(具体模型未知)进行问卷调查;3) 使用潜在变量建模(latent variable modeling)技术,分析人类和LLMs在问卷上的潜在结构;4) 比较人类和LLMs的潜在结构,评估问卷在LLMs上的有效性。
关键创新:该论文的关键创新在于,它从心理测量学的角度出发,质疑了现有研究中直接将人类心理测量工具应用于LLMs的有效性。通过比较人类和LLMs的潜在结构,提供了一种更严谨的方法来评估LLMs的“人格”或“认知”特征。
关键设计:具体的技术细节包括:1) 选择了哪些人格问卷(具体问卷名称未知);2) 如何对LLMs进行问卷调查(例如,如何提示LLMs回答问题);3) 使用了哪种潜在变量建模技术(例如,因子分析、结构方程模型等);4) 如何比较人类和LLMs的潜在结构(例如,使用哪些指标来衡量潜在结构的相似性)。这些细节决定了研究结果的可靠性和解释力。
🖼️ 关键图片
📊 实验亮点
研究结果表明,为人类设计的性格问卷在测量LLM的性格结构时可能无效。人类和LLM在问卷上的潜在结构存在显著差异,这表明LLM可能并不具备与人类相似的性格特征。因此,直接将人类心理测量工具应用于LLM可能会导致错误的结论,需要开发更适合LLM的评估方法。具体的性能数据和提升幅度未知。
🎯 应用场景
该研究的成果可以应用于更可靠地评估大型语言模型(LLMs)的认知能力和行为模式。通过避免使用无效的心理测量工具,可以更准确地了解LLMs的内在机制,从而更好地设计和控制LLMs的行为,减少潜在的风险,并促进LLMs在各个领域的安全应用。此外,该研究也为开发专门针对LLMs的心理测量工具提供了思路。
📄 摘要(原文)
Large language models (LLMs) increasingly reach real-world applications, necessitating a better understanding of their behaviour. Their size and complexity complicate traditional assessment methods, causing the emergence of alternative approaches inspired by the field of psychology. Recent studies administering psychometric questionnaires to LLMs report human-like traits in LLMs, potentially influencing LLM behaviour. However, this approach suffers from a validity problem: it presupposes that these traits exist in LLMs and that they are measurable with tools designed for humans. Typical procedures rarely acknowledge the validity problem in LLMs, comparing and interpreting average LLM scores. This study investigates this problem by comparing latent structures of personality between humans and three LLMs using two validated personality questionnaires. Findings suggest that questionnaires designed for humans do not validly measure similar constructs in LLMs, and that these constructs may not exist in LLMs at all, highlighting the need for psychometric analyses of LLM responses to avoid chasing cognitive phantoms. Keywords: large language models, psychometrics, machine behaviour, latent variable modeling, validity