Investigating Large Language Models in Inferring Personality Traits from User Conversations
作者: Jianfeng Zhu, Ruoming Jin, Karin G. Coifman
分类: cs.CL
发布日期: 2025-01-13
备注: 13 pages, 5 figures
💡 一句话要点
利用大语言模型从用户对话中推断人格特质,中间步骤提升准确性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 人格特质推断 零样本学习 心理评估 GPT-4o GPT-4o mini BFI-10 抑郁症状
📋 核心要点
- 现有方法难以准确地从用户对话中推断人格特质,尤其是在零样本条件下。
- 论文提出一种结构化方法,即先让LLM生成BFI-10项目得分,再计算人格特质,以提高准确性。
- 实验结果表明,该方法提高了人格特质推断的准确性,并揭示了不同LLM在不同抑郁症状组中的差异化表现。
📝 摘要(中文)
本研究评估了大型语言模型(LLMs),特别是GPT-4o和GPT-4o mini,在零样本提示条件下,从用户对话中推断大五人格特质并生成大五人格量表-10(BFI-10)项目得分的能力。研究发现,相比直接推断人格特质,先提示模型生成BFI-10项目得分再计算特质,能够提高准确性,更符合黄金标准。这种结构化方法强调了利用心理学框架来提高预测精度的重要性。此外,基于抑郁症状是否存在的分组比较揭示了不同的模型性能。GPT-4o mini在存在症状的组中,对神经质和尽责性等特质中与抑郁相关的变化表现出更高的敏感性,而GPT-4o在跨组的细微解释方面表现出优势。这些发现强调了LLM有效分析真实心理数据的潜力,为人工智能和心理学交叉学科的跨学科研究提供了有价值的基础。
🔬 方法详解
问题定义:本研究旨在解决如何利用大型语言模型(LLMs)从用户对话中准确推断个体的人格特质。现有方法,特别是直接从对话推断特质的方法,在零样本学习场景下表现不佳,准确性有待提高。此外,不同人群(例如,有无抑郁症状的人群)的特质推断可能存在差异,需要进一步探索。
核心思路:论文的核心思路是借鉴心理学评估的结构化方法,将人格特质的推断分解为两个步骤:首先,让LLM生成大五人格量表(BFI-10)的项目得分;然后,基于这些得分计算出最终的人格特质。这种间接方法能够更好地利用LLM的理解能力,并结合心理学框架,从而提高推断的准确性。
技术框架:整体流程包括以下几个阶段:1) 数据收集:收集包含用户对话的数据集;2) 提示工程:设计零样本提示,引导LLM生成BFI-10项目得分;3) 特质计算:基于生成的BFI-10项目得分,按照标准方法计算大五人格特质;4) 模型评估:将LLM的推断结果与黄金标准(ground truth)进行比较,评估模型的准确性;5) 分组比较:将参与者分为有抑郁症状组和无抑郁症状组,比较LLM在不同组中的表现。
关键创新:最重要的技术创新点在于引入了中间步骤,即先生成BFI-10项目得分,再计算人格特质。与直接推断特质相比,这种方法能够更好地利用LLM的理解能力,并结合心理学框架,从而提高推断的准确性。此外,论文还关注了不同人群(例如,有无抑郁症状的人群)的特质推断差异,并针对性地分析了不同LLM的表现。
关键设计:论文采用了零样本提示策略,避免了对LLM进行微调。提示的设计至关重要,需要清晰地引导LLM生成BFI-10项目得分。此外,论文还采用了标准的大五人格特质计算方法,确保结果的可比性。对于分组比较,论文使用了明确的抑郁症状标准,将参与者分为两组,并分别评估LLM在两组中的表现。
📊 实验亮点
研究发现,通过引入中间步骤(先生成BFI-10项目得分),GPT-4o和GPT-4o mini在人格特质推断方面的准确性得到了显著提高。此外,GPT-4o mini在存在抑郁症状的组中,对神经质和尽责性等特质中与抑郁相关的变化表现出更高的敏感性,而GPT-4o在跨组的细微解释方面表现出优势。这些结果表明,不同的LLM在不同人群中可能表现出不同的优势。
🎯 应用场景
该研究成果可应用于心理健康评估、个性化推荐系统、人机交互等领域。例如,可以利用LLM分析用户在社交媒体上的对话,从而评估其心理健康状况,并提供个性化的心理支持。此外,还可以根据用户的人格特质,为其推荐更符合其兴趣和需求的产品或服务。该研究为人工智能在心理学领域的应用提供了新的思路和方法。
📄 摘要(原文)
Large Language Models (LLMs) are demonstrating remarkable human like capabilities across diverse domains, including psychological assessment. This study evaluates whether LLMs, specifically GPT-4o and GPT-4o mini, can infer Big Five personality traits and generate Big Five Inventory-10 (BFI-10) item scores from user conversations under zero-shot prompting conditions. Our findings reveal that incorporating an intermediate step--prompting for BFI-10 item scores before calculating traits--enhances accuracy and aligns more closely with the gold standard than direct trait inference. This structured approach underscores the importance of leveraging psychological frameworks in improving predictive precision. Additionally, a group comparison based on depressive symptom presence revealed differential model performance. Participants were categorized into two groups: those experiencing at least one depressive symptom and those without symptoms. GPT-4o mini demonstrated heightened sensitivity to depression-related shifts in traits such as Neuroticism and Conscientiousness within the symptom-present group, whereas GPT-4o exhibited strengths in nuanced interpretation across groups. These findings underscore the potential of LLMs to analyze real-world psychological data effectively, offering a valuable foundation for interdisciplinary research at the intersection of artificial intelligence and psychology.