Established Psychometric vs. Ecologically Valid Questionnaires: Rethinking Psychological Assessments in Large Language Models
作者: Dongmin Choi, Woojung Song, Jongwook Han, Eun-Ju Lee, Yohan Jo
分类: cs.CL, cs.AI
发布日期: 2025-09-12
备注: 17 pages, 4 figures
💡 一句话要点
对比心理测量与生态效度问卷,重新评估大语言模型中的心理评估方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 心理测量 生态效度 问卷调查 人格评估
📋 核心要点
- 现有研究直接将人类心理测量问卷应用于LLM,忽略了LLM与人类在行为模式上的差异。
- 论文提出对比分析传统心理测量问卷和生态效度问卷,评估其在LLM心理评估中的有效性。
- 实验表明,传统问卷在LLM评估中存在偏差,生态效度问卷能更准确反映LLM的心理特征。
📝 摘要(中文)
研究人员已应用既定的心理测量问卷(例如,BFI、PVQ)来测量大语言模型(LLM)响应中反映的性格特征和价值观。然而,将这些人为设计的问卷应用于LLM引起了一些担忧。其中一个担忧是它们的生态效度不足——即调查问题在多大程度上充分反映和类似于LLM响应用户查询生成文本的真实世界环境。然而,既定问卷和生态效度问卷在结果上有何不同,以及这些差异可能提供什么见解,目前尚不清楚。在本文中,我们对这两种类型的问卷进行了全面的比较分析。我们的分析表明,既定问卷(1)产生了与生态效度问卷截然不同的LLM概况,偏离了用户查询上下文中表达的心理特征,(2)缺乏足够的项目来进行稳定的测量,(3)产生了LLM具有稳定结构的误导性印象,以及(4)夸大了人物角色提示的LLM的概况。总的来说,我们的工作警告不要对LLM使用既定的心理问卷。我们的代码将在发表后发布。
🔬 方法详解
问题定义:论文旨在解决如何更准确地评估大语言模型(LLM)的“心理特征”这一问题。现有方法直接套用为人类设计的心理测量问卷(如BFI、PVQ),但这些问卷缺乏生态效度,即不能很好地反映LLM在实际应用场景(如响应用户查询)中的行为模式。这种不匹配导致评估结果失真,无法真实反映LLM的内在属性。
核心思路:论文的核心思路是对比分析传统心理测量问卷和更具生态效度的问卷,评估它们在LLM心理评估中的差异。通过比较两种问卷的评估结果,揭示传统问卷在LLM评估中存在的偏差,并论证生态效度问卷的优越性。这种对比分析有助于研究者选择更合适的评估工具,从而更准确地理解LLM的“心理”状态。
技术框架:论文的技术框架主要包括以下几个阶段:1) 选择或构建具有生态效度的问卷;2) 使用传统心理测量问卷和生态效度问卷分别对LLM进行评估;3) 对比分析两种问卷的评估结果,包括LLM的性格特征、价值观等;4) 分析两种问卷在测量稳定性、结构有效性等方面的差异;5) 针对persona-prompted LLM,分析两种问卷评估结果的差异。
关键创新:论文的关键创新在于强调了心理测量问卷的生态效度在LLM评估中的重要性。以往研究往往忽略了LLM与人类在行为模式上的差异,直接套用为人类设计的问卷。论文通过对比分析,揭示了这种做法的局限性,并提出了使用更具生态效度的问卷进行LLM评估的必要性。
关键设计:论文的关键设计在于生态效度问卷的设计或选择,需要确保问卷问题能够反映LLM在实际应用场景中的行为模式。此外,论文还需要设计合理的对比分析方法,以量化两种问卷评估结果的差异。具体的参数设置、损失函数、网络结构等技术细节取决于所使用的LLM和问卷类型,论文中可能没有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,传统心理测量问卷在评估LLM时会产生与生态效度问卷显著不同的结果,并且容易夸大LLM的性格特征。此外,传统问卷在测量LLM的性格稳定性方面也存在不足。这些发现表明,直接套用人类心理测量问卷评估LLM可能导致误导性的结论。
🎯 应用场景
该研究成果可应用于大语言模型的安全性和可靠性评估,例如,通过更准确地评估LLM的价值观和性格特征,可以帮助开发者识别和缓解LLM可能存在的偏见或有害行为。此外,该研究还可以促进人机交互领域的发展,帮助研究者设计更自然、更符合人类心理预期的LLM。
📄 摘要(原文)
Researchers have applied established psychometric questionnaires (e.g., BFI, PVQ) to measure the personality traits and values reflected in the responses of Large Language Models (LLMs). However, concerns have been raised about applying these human-designed questionnaires to LLMs. One such concern is their lack of ecological validity--the extent to which survey questions adequately reflect and resemble real-world contexts in which LLMs generate texts in response to user queries. However, it remains unclear how established questionnaires and ecologically valid questionnaires differ in their outcomes, and what insights these differences may provide. In this paper, we conduct a comprehensive comparative analysis of the two types of questionnaires. Our analysis reveals that established questionnaires (1) yield substantially different profiles of LLMs from ecologically valid ones, deviating from the psychological characteristics expressed in the context of user queries, (2) suffer from insufficient items for stable measurement, (3) create misleading impressions that LLMs possess stable constructs, and (4) yield exaggerated profiles for persona-prompted LLMs. Overall, our work cautions against the use of established psychological questionnaires for LLMs. Our code will be released upon publication.