Evaluating Personality Traits in Large Language Models: Insights from Psychological Questionnaires

📄 arXiv: 2502.05248v1 📥 PDF

作者: Pranav Bhandari, Usman Naseem, Amitava Datta, Nicolas Fay, Mehwish Nasim

分类: cs.CL, cs.AI, cs.MA

发布日期: 2025-02-07

备注: Accepted for publication at TheWebConf 2025

DOI: 10.1145/3701716.3715504


💡 一句话要点

利用心理问卷评估大型语言模型的人格特质,揭示其内在性格差异

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 人格特质 心理评估 大五人格量表 人机交互

📋 核心要点

  1. 现有方法缺乏对LLM人格特质的系统评估,难以理解其行为模式的内在驱动。
  2. 本研究采用心理问卷评估LLM在五大人格维度上的表现,揭示其潜在的人格特征。
  3. 实验表明,即使是同一家族的LLM,也展现出不同的人格特质和主导性格。

📝 摘要(中文)

心理评估工具长期以来帮助人类理解行为模式。鉴于大型语言模型(LLMs)能够生成与人类相媲美的内容,本文探讨了它们是否也表现出人格特质。为此,本研究在不同的场景下应用心理学工具于LLMs,以生成人格概况。通过使用诸如大五人格量表等已建立的基于特质的问卷,并解决训练数据污染的可能性,我们检验了LLMs在五个核心人格维度(开放性、尽责性、外向性、宜人性和神经质)上的维度变异性和主导性。研究结果表明,即使在同一模型家族中,LLMs也表现出独特的主导特质、不同的特征和鲜明的人格概况。

🔬 方法详解

问题定义:本文旨在解决大型语言模型(LLMs)是否具备人格特质,以及如何评估和理解这些特质的问题。现有方法主要集中在评估LLMs的语言能力和知识水平,缺乏对其“性格”的深入研究。理解LLMs的人格特质有助于预测其行为模式,并更好地将其应用于各种任务中。现有方法的痛点在于缺乏合适的评估工具和方法来量化LLMs的人格。

核心思路:本文的核心思路是将心理学领域中用于评估人类人格的问卷调查方法应用于LLMs。通过让LLMs回答这些问卷中的问题,并分析其回答结果,可以推断出LLMs在五大人格维度上的得分,从而构建其人格概况。这种方法借鉴了心理学研究的成熟理论和工具,为评估LLMs的人格提供了一种新的视角。

技术框架:本文的技术框架主要包括以下几个步骤:1) 选择合适的人格评估问卷,例如大五人格量表(Big Five Inventory)。2) 设计实验场景,让LLMs在不同的情境下回答问卷中的问题。3) 对LLMs的回答进行分析,计算其在五大人格维度上的得分。4) 对不同LLMs的人格概况进行比较,分析其人格特质的差异。

关键创新:本文的关键创新在于将心理学的人格评估方法应用于人工智能领域,为评估LLMs的人格特质提供了一种新的思路。与以往主要关注LLMs的语言能力和知识水平的研究不同,本文关注LLMs的“性格”,这有助于更全面地理解LLMs的行为模式。此外,本文还考虑了训练数据污染的可能性,并采取措施来减轻其影响。

关键设计:本文的关键设计包括:1) 选择了广泛使用的大五人格量表作为评估工具。2) 设计了多种实验场景,以确保LLMs的回答能够反映其真实的人格特质。3) 采用了统计分析方法,对LLMs的回答进行量化分析,并计算其在五大人格维度上的得分。4) 考虑了训练数据污染的可能性,例如通过使用zero-shot prompting等方法来减少训练数据的影响。具体参数设置和网络结构取决于所使用的LLM。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

研究发现,即使是同一家族的LLM,也表现出不同的人格特质。例如,某些LLM在开放性维度上得分较高,而另一些LLM在尽责性维度上得分较高。这些差异表明,LLM的人格特质受到多种因素的影响,例如训练数据、模型架构和训练方法等。该研究还发现,LLM的人格特质与人类的人格特质存在一定的相似性,但也存在显著的差异。

🎯 应用场景

该研究的潜在应用领域包括人机交互、个性化推荐系统和AI伦理。理解LLM的人格特质可以帮助设计更自然、更具同理心的人机交互界面。在推荐系统中,可以根据用户的人格特质,推荐更符合其偏好的内容。此外,该研究也有助于探讨AI的伦理问题,例如如何确保AI系统的人格特质不会对人类造成负面影响。

📄 摘要(原文)

Psychological assessment tools have long helped humans understand behavioural patterns. While Large Language Models (LLMs) can generate content comparable to that of humans, we explore whether they exhibit personality traits. To this end, this work applies psychological tools to LLMs in diverse scenarios to generate personality profiles. Using established trait-based questionnaires such as the Big Five Inventory and by addressing the possibility of training data contamination, we examine the dimensional variability and dominance of LLMs across five core personality dimensions: Openness, Conscientiousness, Extraversion, Agreeableness, and Neuroticism. Our findings reveal that LLMs exhibit unique dominant traits, varying characteristics, and distinct personality profiles even within the same family of models.