Investigating Large Language Models in Inferring Personality Traits from User Conversations

作者: Jianfeng Zhu, Ruoming Jin, Karin G. Coifman

分类: cs.CL

发布日期: 2025-01-13

备注: 13 pages, 5 figures

💡 一句话要点

利用大语言模型从用户对话中推断人格特质，中间步骤提升准确性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 人格特质推断 零样本学习 心理评估 GPT-4o GPT-4o mini BFI-10 抑郁症状

📋 核心要点

现有方法难以准确地从用户对话中推断人格特质，尤其是在零样本条件下。
论文提出一种结构化方法，即先让LLM生成BFI-10项目得分，再计算人格特质，以提高准确性。
实验结果表明，该方法提高了人格特质推断的准确性，并揭示了不同LLM在不同抑郁症状组中的差异化表现。

📝 摘要（中文）

本研究评估了大型语言模型（LLMs），特别是GPT-4o和GPT-4o mini，在零样本提示条件下，从用户对话中推断大五人格特质并生成大五人格量表-10（BFI-10）项目得分的能力。研究发现，相比直接推断人格特质，先提示模型生成BFI-10项目得分再计算特质，能够提高准确性，更符合黄金标准。这种结构化方法强调了利用心理学框架来提高预测精度的重要性。此外，基于抑郁症状是否存在的分组比较揭示了不同的模型性能。GPT-4o mini在存在症状的组中，对神经质和尽责性等特质中与抑郁相关的变化表现出更高的敏感性，而GPT-4o在跨组的细微解释方面表现出优势。这些发现强调了LLM有效分析真实心理数据的潜力，为人工智能和心理学交叉学科的跨学科研究提供了有价值的基础。

🔬 方法详解

问题定义：本研究旨在解决如何利用大型语言模型（LLMs）从用户对话中准确推断个体的人格特质。现有方法，特别是直接从对话推断特质的方法，在零样本学习场景下表现不佳，准确性有待提高。此外，不同人群（例如，有无抑郁症状的人群）的特质推断可能存在差异，需要进一步探索。

核心思路：论文的核心思路是借鉴心理学评估的结构化方法，将人格特质的推断分解为两个步骤：首先，让LLM生成大五人格量表（BFI-10）的项目得分；然后，基于这些得分计算出最终的人格特质。这种间接方法能够更好地利用LLM的理解能力，并结合心理学框架，从而提高推断的准确性。

技术框架：整体流程包括以下几个阶段：1) 数据收集：收集包含用户对话的数据集；2) 提示工程：设计零样本提示，引导LLM生成BFI-10项目得分；3) 特质计算：基于生成的BFI-10项目得分，按照标准方法计算大五人格特质；4) 模型评估：将LLM的推断结果与黄金标准（ground truth）进行比较，评估模型的准确性；5) 分组比较：将参与者分为有抑郁症状组和无抑郁症状组，比较LLM在不同组中的表现。

关键创新：最重要的技术创新点在于引入了中间步骤，即先生成BFI-10项目得分，再计算人格特质。与直接推断特质相比，这种方法能够更好地利用LLM的理解能力，并结合心理学框架，从而提高推断的准确性。此外，论文还关注了不同人群（例如，有无抑郁症状的人群）的特质推断差异，并针对性地分析了不同LLM的表现。

关键设计：论文采用了零样本提示策略，避免了对LLM进行微调。提示的设计至关重要，需要清晰地引导LLM生成BFI-10项目得分。此外，论文还采用了标准的大五人格特质计算方法，确保结果的可比性。对于分组比较，论文使用了明确的抑郁症状标准，将参与者分为两组，并分别评估LLM在两组中的表现。

📊 实验亮点

研究发现，通过引入中间步骤（先生成BFI-10项目得分），GPT-4o和GPT-4o mini在人格特质推断方面的准确性得到了显著提高。此外，GPT-4o mini在存在抑郁症状的组中，对神经质和尽责性等特质中与抑郁相关的变化表现出更高的敏感性，而GPT-4o在跨组的细微解释方面表现出优势。这些结果表明，不同的LLM在不同人群中可能表现出不同的优势。

🎯 应用场景

该研究成果可应用于心理健康评估、个性化推荐系统、人机交互等领域。例如，可以利用LLM分析用户在社交媒体上的对话，从而评估其心理健康状况，并提供个性化的心理支持。此外，还可以根据用户的人格特质，为其推荐更符合其兴趣和需求的产品或服务。该研究为人工智能在心理学领域的应用提供了新的思路和方法。

📄 摘要（原文）

Large Language Models (LLMs) are demonstrating remarkable human like capabilities across diverse domains, including psychological assessment. This study evaluates whether LLMs, specifically GPT-4o and GPT-4o mini, can infer Big Five personality traits and generate Big Five Inventory-10 (BFI-10) item scores from user conversations under zero-shot prompting conditions. Our findings reveal that incorporating an intermediate step--prompting for BFI-10 item scores before calculating traits--enhances accuracy and aligns more closely with the gold standard than direct trait inference. This structured approach underscores the importance of leveraging psychological frameworks in improving predictive precision. Additionally, a group comparison based on depressive symptom presence revealed differential model performance. Participants were categorized into two groups: those experiencing at least one depressive symptom and those without symptoms. GPT-4o mini demonstrated heightened sensitivity to depression-related shifts in traits such as Neuroticism and Conscientiousness within the symptom-present group, whereas GPT-4o exhibited strengths in nuanced interpretation across groups. These findings underscore the potential of LLMs to analyze real-world psychological data effectively, offering a valuable foundation for interdisciplinary research at the intersection of artificial intelligence and psychology.

Investigating Large Language Models in Inferring Personality Traits from User Conversations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理