Humanizing LLMs: A Survey of Psychological Measurements with Tools, Datasets, and Human-Agent Applications

📄 arXiv: 2505.00049v1 📥 PDF

作者: Wenhan Dong, Yuemeng Zhao, Zhen Sun, Yule Liu, Zifan Peng, Jingyi Zheng, Zongmin Zhang, Ziyi Zhang, Jun Wu, Ruiming Wang, Shengmin Xu, Xinyi Huang, Xinlei He

分类: cs.CY, cs.CL, cs.HC, cs.LG

发布日期: 2025-04-30

备注: 26 pages,7 figures


💡 一句话要点

综述:通过心理测量工具、数据集和人机应用来理解和“人性化”大型语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 心理测量 人机交互 人格模拟 行为模拟 评估工具 LLM数据集

📋 核心要点

  1. 现有研究缺乏对LLM心理特征评估的系统性综述,尤其是在心理测试、数据集和应用方面。
  2. 该综述系统地回顾了六个关键维度,包括评估工具、数据集、评估指标、实证研究、人格模拟和行为模拟。
  3. 分析揭示了现有方法的优势和局限性,并为未来开发更可靠的LLM心理评估框架提出了方向。

📝 摘要(中文)

随着大型语言模型(LLMs)越来越多地应用于以人为中心的任务中,评估其心理特征对于理解其社会影响和确保可信赖的AI对齐至关重要。虽然现有的综述已经涵盖了相关研究的某些方面,但一些重要的领域尚未得到系统地讨论,包括对各种心理测试、LLM特定的心理数据集以及具有心理特征的LLM的应用的详细讨论。为了弥补这一差距,我们系统地回顾了将心理学理论应用于LLM的六个关键维度:(1)评估工具;(2)LLM特定的数据集;(3)评估指标(一致性和稳定性);(4)实证研究结果;(5)人格模拟方法;(6)基于LLM的行为模拟。我们的分析突出了当前方法的优势和局限性。虽然一些LLM在特定的提示方案下表现出可重复的人格模式,但在任务和设置中仍然存在显著的变异性。认识到心理工具与LLM能力之间的不匹配以及评估实践中的不一致等方法论挑战,本研究旨在为开发更可解释、更稳健和更通用的LLM心理评估框架提出未来的方向。

🔬 方法详解

问题定义:该论文旨在解决大型语言模型(LLMs)在人机交互中日益普及,但对其心理特征的评估缺乏系统性研究的问题。现有方法存在以下痛点:缺乏对心理评估工具、LLM专用数据集以及LLM心理特征应用的全面综述,导致难以理解LLM的社会影响和确保可信赖的AI对齐。

核心思路:论文的核心思路是通过系统性地回顾和分析将心理学理论应用于LLM的各个方面,从而填补现有研究的空白。通过梳理评估工具、数据集、评估指标、实证研究、人格模拟和行为模拟等关键维度,为LLM的心理评估提供一个全面的框架。

技术框架:该综述的技术框架主要包括以下几个阶段: 1. 文献收集与筛选:收集关于LLM心理评估的相关研究论文。 2. 维度划分:将研究内容划分为六个关键维度:评估工具、LLM特定数据集、评估指标、实证研究结果、人格模拟方法和LLM-based行为模拟。 3. 文献分析与总结:对每个维度下的文献进行深入分析和总结,提取关键信息和研究发现。 4. 优缺点评估:评估现有方法的优势和局限性。 5. 未来方向展望:基于分析结果,提出未来研究方向和改进建议。

关键创新:该综述的关键创新在于其系统性和全面性。它不仅涵盖了传统的心理评估工具和方法,还关注了LLM特定的数据集和评估指标,以及人格模拟和行为模拟等新兴领域。此外,该综述还对现有方法的优缺点进行了深入分析,并为未来的研究方向提出了具体的建议。

关键设计:该综述的关键设计在于其维度划分和文献分析方法。通过将研究内容划分为六个关键维度,可以更清晰地组织和呈现信息。同时,通过对每个维度下的文献进行深入分析和总结,可以更准确地把握研究现状和发展趋势。具体的参数设置、损失函数、网络结构等技术细节不涉及,因为这是一篇综述文章。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该综述强调,虽然一些LLM在特定提示下表现出可重复的人格模式,但在不同任务和设置中仍然存在显著差异。研究还指出了心理工具与LLM能力不匹配以及评估实践不一致等方法论挑战,这些发现为未来研究提供了重要的参考。

🎯 应用场景

该研究的潜在应用领域包括人机交互、心理健康评估、教育和娱乐等。通过理解LLM的心理特征,可以开发更自然、更可信赖的AI助手,提高人机交互的效率和用户满意度。此外,该研究还可以为开发更具同理心和情感理解能力的AI系统提供指导,从而在心理健康评估和治疗等领域发挥作用。

📄 摘要(原文)

As large language models (LLMs) are increasingly used in human-centered tasks, assessing their psychological traits is crucial for understanding their social impact and ensuring trustworthy AI alignment. While existing reviews have covered some aspects of related research, several important areas have not been systematically discussed, including detailed discussions of diverse psychological tests, LLM-specific psychological datasets, and the applications of LLMs with psychological traits. To address this gap, we systematically review six key dimensions of applying psychological theories to LLMs: (1) assessment tools; (2) LLM-specific datasets; (3) evaluation metrics (consistency and stability); (4) empirical findings; (5) personality simulation methods; and (6) LLM-based behavior simulation. Our analysis highlights both the strengths and limitations of current methods. While some LLMs exhibit reproducible personality patterns under specific prompting schemes, significant variability remains across tasks and settings. Recognizing methodological challenges such as mismatches between psychological tools and LLMs' capabilities, as well as inconsistencies in evaluation practices, this study aims to propose future directions for developing more interpretable, robust, and generalizable psychological assessment frameworks for LLMs.