Large Language Models Can Infer Personality from Free-Form User Interactions

作者: Heinrich Peters, Moran Cerf, Sandra C. Matz

分类: cs.HC, cs.AI, cs.CL, cs.CY, cs.LG

发布日期: 2024-05-19

💡 一句话要点

大型语言模型可从自由形式用户交互中推断人格

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 人格推断 对话系统 心理剖析 GPT-4

📋 核心要点

现有方法依赖静态文本内容推断人格，准确率有限，无法充分利用对话交互中的信息。
利用大型语言模型（LLM）的强大能力，通过设计不同对话策略，从自由形式的交互中推断人格。
实验表明，GPT-4驱动的聊天机器人能以中等准确率推断人格，优于以往方法，且用户体验良好。

📝 摘要（中文）

本研究调查了大型语言模型（LLM）从自由形式的用户交互中推断大五人格特质的能力。结果表明，由GPT-4驱动的聊天机器人能够以中等准确度推断人格，优于以往从静态文本内容进行推断的方法。推断的准确性因不同的对话设置而异。当聊天机器人被提示从用户那里引出与人格相关的信息时，性能最高（平均r=.443，范围=[.245, .640]），其次是更强调自然交互的条件（平均r=.218，范围=[.066, .373]）。值得注意的是，直接关注人格评估并没有导致更差的用户体验，参与者报告说，在两种条件下，交互同样自然、愉快、引人入胜和人性化。模仿ChatGPT默认行为（充当有用的助手）的聊天机器人导致了明显较差的人格推断和较低的用户体验评分，但仍然捕捉到了一些人格特质的心理学上有意义的信息（平均r=.117，范围=[-.004, .209]）。初步分析表明，人格推断的准确性在不同的社会人口亚组中变化不大。我们的结果突出了LLM在基于对话交互进行心理剖析方面的潜力。我们讨论了与这些发现相关的实际意义和伦理挑战。

🔬 方法详解

问题定义：现有的人格推断方法主要依赖于静态文本数据，例如社交媒体帖子或书面文本。这些方法无法捕捉到对话交互中动态变化的人格特征，并且准确率较低。因此，需要一种能够从自由形式的用户交互中更准确地推断人格的方法。

核心思路：本研究的核心思路是利用大型语言模型（LLM）的强大能力，通过设计不同的对话策略，引导用户进行交互，从而提取与人格相关的信息。通过分析这些交互数据，LLM可以推断出用户的人格特质。这种方法的核心在于利用LLM的理解和生成能力，模拟自然对话，从而更有效地获取人格信息。

技术框架：该研究的技术框架主要包括以下几个阶段：1) 设计不同的对话策略，包括直接询问人格相关问题、模拟自然对话以及扮演助手角色；2) 使用GPT-4等大型语言模型构建聊天机器人，并根据不同的对话策略进行配置；3) 收集用户与聊天机器人的交互数据；4) 使用LLM分析交互数据，推断用户的大五人格特质；5) 评估推断的准确性，并分析用户体验。

关键创新：本研究的关键创新在于：1) 利用大型语言模型进行人格推断，突破了传统方法的局限性；2) 设计了多种对话策略，探索了不同交互方式对人格推断准确性的影响；3) 评估了用户体验，证明了直接关注人格评估的对话策略不会降低用户体验。

关键设计：研究中设计了三种对话策略：1) 提示聊天机器人直接询问人格相关问题，以引出人格信息；2) 模拟自然对话，让用户在自然交互中展现人格特征；3) 让聊天机器人扮演助手角色，提供帮助，观察用户在寻求帮助时的行为。研究使用GPT-4作为LLM，并使用大五人格量表评估推断的准确性。此外，研究还评估了用户对不同对话策略的体验，包括自然性、愉悦性、参与度和人性化程度。

📊 实验亮点

实验结果表明，GPT-4驱动的聊天机器人能够以中等准确度推断人格，优于以往方法。在直接询问人格相关问题的对话策略下，人格推断的平均相关系数达到r=.443，范围为[.245, .640]。即使在模拟自然对话的条件下，平均相关系数也达到r=.218，范围为[.066, .373]。此外，研究还发现，直接关注人格评估的对话策略不会降低用户体验。

🎯 应用场景

该研究成果可应用于心理健康评估、个性化推荐系统、招聘筛选、人机交互设计等领域。通过与用户进行对话，系统可以自动评估用户的人格特质，从而提供更个性化的服务和建议。未来，该技术有望应用于更广泛的领域，例如教育、医疗等，为人们提供更智能、更人性化的服务。

📄 摘要（原文）

This study investigates the capacity of Large Language Models (LLMs) to infer the Big Five personality traits from free-form user interactions. The results demonstrate that a chatbot powered by GPT-4 can infer personality with moderate accuracy, outperforming previous approaches drawing inferences from static text content. The accuracy of inferences varied across different conversational settings. Performance was highest when the chatbot was prompted to elicit personality-relevant information from users (mean r=.443, range=[.245, .640]), followed by a condition placing greater emphasis on naturalistic interaction (mean r=.218, range=[.066, .373]). Notably, the direct focus on personality assessment did not result in a less positive user experience, with participants reporting the interactions to be equally natural, pleasant, engaging, and humanlike across both conditions. A chatbot mimicking ChatGPT's default behavior of acting as a helpful assistant led to markedly inferior personality inferences and lower user experience ratings but still captured psychologically meaningful information for some of the personality traits (mean r=.117, range=[-.004, .209]). Preliminary analyses suggest that the accuracy of personality inferences varies only marginally across different socio-demographic subgroups. Our results highlight the potential of LLMs for psychological profiling based on conversational interactions. We discuss practical implications and ethical challenges associated with these findings.

Large Language Models Can Infer Personality from Free-Form User Interactions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理