PhDGPT: Introducing a psychometric and linguistic dataset about how large language models perceive graduate students and professors in psychology

📄 arXiv: 2411.10473v1 📥 PDF

作者: Edoardo Sebastiano De Duro, Enrique Taietta, Riccardo Improta, Massimo Stella

分类: cs.HC, cs.AI, cs.CL, cs.CY

发布日期: 2024-11-06

备注: 20 pages, 8 figures. Edoardo Sebastiano De Duro and Enrique Taietta equally contributed to this work


💡 一句话要点

PhDGPT:构建心理测量与语言数据集,探索LLM对心理学研究生和教授的认知。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 机器心理学 心理测量学 心理语言学 合成数据集 情绪识别 心理健康 提示工程

📋 核心要点

  1. 现有方法难以深入理解大型语言模型(LLM)如何感知和理解人类心理状态,尤其是在学术研究领域。
  2. PhDGPT框架通过提示LLM模拟心理学研究生和教授,并结合心理测量学量表,生成合成数据集,从而探究LLM的“机器心理”。
  3. 实验结果表明,LLM在一定程度上能够重现人类心理测量数据的复杂性,但也存在局限性,为未来研究提供了参考。

📝 摘要(中文)

本文介绍了PhDGPT,一个提示框架和合成数据集,旨在探究OpenAI的GPT-3.5对心理学博士生和教授的机器心理认知。该数据集包含756,000个数据点,涵盖15个学术事件、2个生理性别、2个职业级别以及抑郁、焦虑和压力量表(DASS-42)的42个独特项目响应,每个组合重复300次。PhDGPT将心理测量分数与通俗易懂的解释相结合,从分数和文本的双重角度全面展现了模拟学者的情绪健康状况。通过结合网络心理测量学和心理语言学维度,该研究揭示了人类数据和LLM数据之间的异同。研究发现,模拟男性教授的心理测量网络在生理和情绪焦虑分量表之间没有差异,这与人类不同。其他LLM的人格化能够以高达80%的纯度重建人类DASS因子。此外,LLM在不同情境下生成的人格化在编码焦虑的项目中,其解释的具象性和可想象性较低,这与过去关于人类心理学的研究一致。研究结果表明,LLM在重现人类心理测量数据的复杂性方面具有先进但并不完整的能力,揭示了使用LLM代替人类参与者的优势和局限性。PhDGPT还捕捉到LLM根据提示的精神痛苦情境特征调整和改变语言模式的能力,为评估这些人工智能的机器心理学开辟了新的定量机会。

🔬 方法详解

问题定义:论文旨在解决如何理解大型语言模型(LLM)对特定人群(心理学研究生和教授)的心理认知问题。现有方法缺乏有效的数据集和框架来系统地探究LLM的“机器心理”,难以量化LLM对人类心理状态的理解程度。

核心思路:论文的核心思路是构建一个提示框架(PhDGPT),通过提示LLM扮演不同角色(例如,男性/女性博士生或教授),并使用心理测量量表(DASS-42)来评估LLM对这些角色的情绪和心理状态的模拟。通过分析LLM生成的数据,可以推断其对人类心理的认知模式。

技术框架:PhDGPT框架主要包含以下几个阶段: 1. 角色定义:定义不同的角色,包括性别(男/女)、职业级别(博士生/教授)和学术事件。 2. 提示生成:根据角色定义,生成相应的提示语,引导LLM扮演该角色。 3. 心理测量:使用DASS-42量表评估LLM对角色的情绪和心理状态的模拟,获得心理测量分数。 4. 文本解释:要求LLM用自然语言解释其在DASS-42量表上的得分。 5. 数据分析:结合心理测量分数和文本解释,分析LLM对不同角色的心理认知模式。

关键创新:论文的关键创新在于: 1. PhDGPT框架:提供了一个系统的方法来探究LLM的“机器心理”。 2. 合成数据集:构建了一个包含大量数据点(756,000)的合成数据集,为研究LLM的心理认知提供了数据基础。 3. 结合心理测量和语言分析:将心理测量分数与文本解释相结合,从多个维度分析LLM的心理认知模式。

关键设计: * 使用DASS-42量表评估LLM的情绪和心理状态。 * 通过提示工程,引导LLM扮演不同的角色。 * 分析LLM生成的文本解释,评估其对人类心理状态的理解程度。 * 采用网络心理测量学和心理语言学方法分析数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在一定程度上能够重现人类心理测量数据的复杂性,例如,LLM能够以高达80%的纯度重建人类DASS因子。然而,LLM也存在局限性,例如,模拟男性教授的心理测量网络在生理和情绪焦虑分量表之间没有差异,这与人类不同。这些发现揭示了LLM在心理认知方面的优势和局限性。

🎯 应用场景

该研究成果可应用于评估和改进LLM在心理健康领域的应用,例如心理咨询、情感支持等。通过了解LLM如何感知和理解人类心理状态,可以开发更有效、更人性化的AI心理健康工具。此外,该研究还可以为开发更具同理心和情感智能的AI系统提供参考。

📄 摘要(原文)

Machine psychology aims to reconstruct the mindset of Large Language Models (LLMs), i.e. how these artificial intelligences perceive and associate ideas. This work introduces PhDGPT, a prompting framework and synthetic dataset that encapsulates the machine psychology of PhD researchers and professors as perceived by OpenAI's GPT-3.5. The dataset consists of 756,000 datapoints, counting 300 iterations repeated across 15 academic events, 2 biological genders, 2 career levels and 42 unique item responses of the Depression, Anxiety, and Stress Scale (DASS-42). PhDGPT integrates these psychometric scores with their explanations in plain language. This synergy of scores and texts offers a dual, comprehensive perspective on the emotional well-being of simulated academics, e.g. male/female PhD students or professors. By combining network psychometrics and psycholinguistic dimensions, this study identifies several similarities and distinctions between human and LLM data. The psychometric networks of simulated male professors do not differ between physical and emotional anxiety subscales, unlike humans. Other LLMs' personification can reconstruct human DASS factors with a purity up to 80%. Furthemore, LLM-generated personifications across different scenarios are found to elicit explanations lower in concreteness and imageability in items coding for anxiety, in agreement with past studies about human psychology. Our findings indicate an advanced yet incomplete ability for LLMs to reproduce the complexity of human psychometric data, unveiling convenient advantages and limitations in using LLMs to replace human participants. PhDGPT also intriguingly capture the ability for LLMs to adapt and change language patterns according to prompted mental distress contextual features, opening new quantitative opportunities for assessing the machine psychology of these artificial intelligences.