Can LLMs Infer Personality from Real World Conversations?
作者: Jianfeng Zhu, Ruoming Jin, Karin G. Coifman
分类: cs.CL
发布日期: 2025-07-18
备注: 21 pages, 12 figures
💡 一句话要点
利用真实对话评估LLM的人格推断能力,揭示其在心理评估中的局限性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 人格推断 真实对话 心理评估 零样本学习
📋 核心要点
- 现有基于LLM的人格推断研究依赖合成数据或缺乏心理测量有效性的社交媒体文本,难以反映真实世界场景。
- 本文构建了一个包含真实访谈记录的基准数据集,并使用零样本和思维链提示方法评估了多个先进LLM的人格推断能力。
- 实验表明,LLM在人格推断方面存在结构效度不足、预测偏差等问题,提示需要进一步改进LLM在心理评估中的应用。
📝 摘要(中文)
本文评估了大型语言模型(LLMs),如OpenAI的GPT-4.1 Mini、Meta的LLaMA和DeepSeek,在基于真实对话进行人格推断方面的能力。研究使用包含555个半结构化访谈的真实世界基准数据集,该数据集带有BFI-10自评量表分数,用于评估LLM的人格推断。实验采用零样本提示进行BFI-10项目预测,并采用零样本和思维链提示进行大五人格特质推断。结果表明,所有模型都表现出较高的重测信度,但结构效度有限:与真实分数的关联性较弱(最大Pearson's r = 0.27),评分者间一致性较低(Cohen's κ < 0.10),并且预测结果偏向于中等或高特质水平。思维链提示和更长的输入上下文在一定程度上改善了分布对齐,但并未提高特质水平的准确性。这些结果强调了当前基于LLM的人格推断的局限性,并突出了心理学应用中循证开发的需求。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLMs)从真实世界对话中推断人格特质的能力。现有方法主要依赖于合成数据或心理测量学有效性不足的社交媒体文本,无法准确反映LLM在实际场景中的表现。因此,需要一个更具代表性的真实世界基准来评估LLM的人格推断能力,并识别其局限性。
核心思路:论文的核心思路是利用包含真实访谈记录和对应人格评估结果的数据集,直接评估LLM在人格推断任务中的表现。通过比较LLM的预测结果与真实人格评估结果,可以量化LLM的准确性和可靠性,并识别其存在的偏差和局限性。这种方法避免了合成数据带来的偏差,并提供了更可靠的评估结果。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集:构建包含555个半结构化访谈的真实世界基准数据集,每个访谈都附带BFI-10自评量表分数。2) 模型选择:选择三个先进的LLM(GPT-4.1 Mini、Meta-LLaMA和DeepSeek)进行评估。3) 提示工程:设计零样本提示和思维链提示,用于指导LLM进行BFI-10项目预测和大五人格特质推断。4) 评估指标:使用Pearson相关系数、Cohen's Kappa系数等指标评估LLM的预测准确性、评分者间一致性和重测信度。
关键创新:该研究的关键创新在于构建了一个包含真实访谈记录的基准数据集,用于评估LLM的人格推断能力。与以往研究中使用合成数据或社交媒体文本不同,该数据集更具代表性,能够更准确地反映LLM在实际场景中的表现。此外,该研究还采用了多种提示工程技术和评估指标,对LLM的人格推断能力进行了全面评估。
关键设计:在提示工程方面,研究采用了零样本提示和思维链提示两种方法。零样本提示直接要求LLM根据访谈内容推断人格特质,而思维链提示则要求LLM逐步解释其推理过程,以提高预测的准确性。在评估指标方面,研究使用了Pearson相关系数评估LLM预测结果与真实人格评估结果之间的相关性,使用Cohen's Kappa系数评估评分者间一致性,使用重测信度评估LLM预测结果的稳定性。
📊 实验亮点
实验结果表明,所有模型都表现出较高的重测信度,但结构效度有限,与真实分数的关联性较弱(最大Pearson's r = 0.27),评分者间一致性较低(Cohen's κ < 0.10),并且预测结果偏向于中等或高特质水平。思维链提示和更长的输入上下文在一定程度上改善了分布对齐,但并未显著提高特质水平的准确性。这些结果揭示了当前LLM在人格推断方面的局限性。
🎯 应用场景
该研究成果可应用于心理健康评估、招聘筛选、个性化推荐等领域。通过改进LLM的人格推断能力,可以实现更高效、更客观的人格评估,为相关应用提供更可靠的支持。未来的研究可以探索如何利用领域知识和微调技术,进一步提高LLM在人格推断方面的准确性和可靠性。
📄 摘要(原文)
Large Language Models (LLMs) such as OpenAI's GPT-4 and Meta's LLaMA offer a promising approach for scalable personality assessment from open-ended language. However, inferring personality traits remains challenging, and earlier work often relied on synthetic data or social media text lacking psychometric validity. We introduce a real-world benchmark of 555 semi-structured interviews with BFI-10 self-report scores for evaluating LLM-based personality inference. Three state-of-the-art LLMs (GPT-4.1 Mini, Meta-LLaMA, and DeepSeek) were tested using zero-shot prompting for BFI-10 item prediction and both zero-shot and chain-of-thought prompting for Big Five trait inference. All models showed high test-retest reliability, but construct validity was limited: correlations with ground-truth scores were weak (max Pearson's $r = 0.27$), interrater agreement was low (Cohen's $κ< 0.10$), and predictions were biased toward moderate or high trait levels. Chain-of-thought prompting and longer input context modestly improved distributional alignment, but not trait-level accuracy. These results underscore limitations in current LLM-based personality inference and highlight the need for evidence-based development for psychological applications.