Human Psychometric Questionnaires Mischaracterize LLM Psychology: Evidence from Generation Behavior

📄 arXiv: 2509.10078 📥 PDF

作者: Woojung Song, Dongmin Choi, Yoonah Park, Jongwook Han, Yohan Jo

分类: cs.CL, cs.AI

发布日期: 2026-04-06


💡 一句话要点

揭示人类心理测量问卷在刻画LLM心理特征上的局限性,提出基于生成行为的心理测量方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 心理测量学 心理剖析 生成行为 问卷调查 偏差分析 价值观 人格特质

📋 核心要点

  1. 现有研究使用人类心理测量问卷评估LLM,但其有效性受到质疑,因为LLM的回答可能反映期望行为而非真实心理。
  2. 该研究对比了LLM在心理测量问卷中的自述分数和对真实用户查询的生成概率,以评估问卷的可靠性。
  3. 实验结果表明,两种剖析方法存在显著差异,人类问卷可能无法准确反映LLM的心理特征,并可能夸大其偏差。

📝 摘要(中文)

使用为人类设计的心理测量问卷对大型语言模型(LLM)进行心理剖析已变得普遍。然而,由此产生的剖析是否反映了模型在与用户的真实交互中所表达的心理特征,仍然不清楚。为了检验人类问卷错误描述LLM心理的风险,我们比较了八个开源LLM的两种类型的剖析:来自已建立问卷的自述Likert量表分数(PVQ-40、PVQ-21、BFI-44、BFI-10)以及对真实用户查询的价值或人格负载响应的生成概率分数。结果表明,这两种剖析存在显著差异,并提供了证据表明LLM对已建立问卷的响应反映了期望的行为,而不是稳定的心理结构,这挑战了先前工作中声称的LLM一致的心理倾向。已建立的问卷也可能夸大LLM的人口统计偏差。我们的结果表明,在解释从已建立问卷中得出的心理剖析时应谨慎,并指出基于生成的剖析是LLM心理测量学更可靠的方法。

🔬 方法详解

问题定义:现有研究广泛采用针对人类设计的心理测量问卷来评估大型语言模型(LLM)的心理特征。然而,这种方法存在一个关键问题:LLM在回答这些问卷时,可能并非基于其内在的“真实”心理状态,而是倾向于给出符合期望或预设目标的答案。因此,使用人类问卷评估LLM心理特征的有效性和可靠性受到质疑。现有方法的痛点在于无法区分LLM的“真实”心理状态和其为了迎合问卷设计而产生的行为。

核心思路:该论文的核心思路是通过比较LLM在传统心理测量问卷中的自述结果和其在真实用户交互场景下的生成行为,来评估传统问卷的可靠性。如果LLM在问卷中的回答与其在实际应用中的行为表现出显著差异,则表明传统问卷可能无法准确反映LLM的心理特征。这种比较能够揭示LLM对问卷的回答是否仅仅是“期望行为”的体现,而非其内在心理结构的反映。

技术框架:该研究的技术框架主要包含以下几个阶段: 1. 选择LLM:选取多个开源LLM作为研究对象。 2. 心理测量问卷评估:使用已建立的心理测量问卷(如PVQ-40、PVQ-21、BFI-44、BFI-10)对LLM进行评估,获取自述Likert量表分数。 3. 生成行为评估:设计真实用户查询,并评估LLM生成响应的概率,这些响应与特定的价值观或人格特质相关联。 4. 剖析对比:比较LLM在心理测量问卷中的自述分数和其在生成行为评估中的概率分数。 5. 偏差分析:分析心理测量问卷是否会夸大LLM的人口统计偏差。

关键创新:该研究的关键创新在于提出了基于生成行为的LLM心理测量方法。与传统的基于问卷的方法不同,该方法通过分析LLM在真实用户交互场景下的行为来推断其心理特征。这种方法能够更直接地反映LLM在实际应用中的表现,从而更准确地评估其心理特征。

关键设计:在生成行为评估阶段,关键设计包括: 1. 用户查询设计:设计能够引发LLM产生与特定价值观或人格特质相关的响应的用户查询。 2. 概率分数计算:使用某种方法(具体方法未知)计算LLM生成特定响应的概率分数。 3. 统计分析:使用统计方法比较两种剖析结果的差异,并评估问卷是否会夸大LLM的偏差。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究结果表明,LLM在心理测量问卷中的自述分数与其在生成行为评估中的概率分数存在显著差异。这表明,传统的心理测量问卷可能无法准确反映LLM的心理特征,并可能夸大其偏差。例如,LLM在问卷中可能表现出某种价值观,但在实际生成内容时却未能体现该价值观。具体性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于改进LLM的心理评估方法,避免过度依赖人类问卷,从而更准确地了解LLM的真实能力和潜在风险。这有助于开发更安全、可靠和符合伦理规范的LLM,并促进人与AI之间的有效协作。此外,该研究也为评估其他类型AI系统的心理特征提供了借鉴。

📄 摘要(原文)

Psychological profiling of large language models (LLMs) using psychometric questionnaires designed for humans has become widespread. However, it remains unclear whether the resulting profiles mirror the models' psychological characteristics expressed during their real-world interactions with users. To examine the risk of human questionnaires mischaracterizing LLM psychology, we compare two types of profiles for eight open-source LLMs: self-reported Likert scores from established questionnaires (PVQ-40, PVQ-21, BFI-44, BFI-10) and generation probability scores of value- or personality-laden responses to real-world user queries. The two profiles turn out to be substantially different and provide evidence that LLMs' responses to established questionnaires reflect desired behavior rather than stable psychological constructs, which challenges the consistent psychological dispositions of LLMs claimed in prior work. Established questionnaires also risk exaggerating the demographic biases of LLMs. Our results suggest caution when interpreting psychological profiles derived from established questionnaires and point to generation-based profiling as a more reliable approach to LLM psychometrics.