Do GPT Language Models Suffer From Split Personality Disorder? The Advent Of Substrate-Free Psychometrics

📄 arXiv: 2408.07377v2 📥 PDF

作者: Peter Romero, Stephen Fitz, Teruo Nakatsuma

分类: cs.CL, cs.AI, cs.CY

发布日期: 2024-08-14 (更新: 2024-08-15)

备注: 37 pages, 7 figures, 3 tables, date v1: Mar 26 2023; replaced with new version; reason: removed journal logo from older version of article that is no longer valid

DOI: 10.21203/rs.3.rs-2717108/v1


💡 一句话要点

揭示GPT语言模型人格分裂问题:基于无基质心理测量学的研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 人格评估 心理测量学 高斯混合模型 贝叶斯分析 多语言 人工智能安全

📋 核心要点

  1. 现有研究表明大型语言模型具有类似人类的心理特征,但这些特征的表达并不一致,且存在黑暗三性格倾向,引发安全担忧。
  2. 本研究采用多语言性格问卷和高斯混合模型贝叶斯分析,揭示了语言模型人格不稳定的问题,即缺乏一致的核心人格。
  3. 研究结果表明,语言模型存在跨语言和语言内部的不稳定性,可能导致基于这些模型的人工智能系统出现不安全行为。

📝 摘要(中文)

先前关于大型语言模型涌现能力的研究表明,它们展现出类似人类的能力和潜在的心理特征。然而,这些潜在特征的表达和强度在结果上存在部分矛盾,但都一致地显示出令人担忧的倾向,即在黑暗三性格(自恋、精神病态和马基雅维利主义)上得分很高。鉴于此以及过往的脱轨记录,需要对这些模型的安全性进行更严格的研究。本研究使用九种语言向最先进的语言模型提供了相同的性格问卷,并进行了高斯混合模型的贝叶斯分析,发现了更深层次的问题。结果表明存在跨语言和语言内部的不稳定性,这表明当前的语言模型没有发展出一致的核心人格。这可能导致基于这些基础模型的人工智能系统出现不安全的行为,而这些系统正日益融入人类生活。随后,我们讨论了现代心理测量的缺点,对其进行了抽象,并为物种中立、无基质的公式化提供了一个框架。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)是否具有稳定人格的问题。现有研究表明LLM可能表现出类似人类的心理特征,但这些特征的表达并不一致,且存在高黑暗三性格倾向。这引发了对基于LLM的AI系统安全性的担忧。现有方法主要依赖于单语言的心理测量,无法充分揭示LLM人格的跨语言一致性问题。

核心思路:论文的核心思路是通过多语言的心理测量,考察LLM在不同语言环境下的人格表现,从而揭示其人格的稳定性和一致性。如果LLM具有稳定的人格,那么在不同语言环境下,其人格特征应该表现出一致性。反之,如果LLM在不同语言环境下的人格表现差异较大,则表明其人格不稳定。

技术框架:论文的技术框架主要包括以下几个步骤:1)选择一个最先进的语言模型;2)使用九种语言的性格问卷(具体问卷类型未知)对该模型进行测试;3)使用高斯混合模型(Gaussian Mixture Model, GMM)对测试结果进行建模;4)使用贝叶斯分析方法对GMM的参数进行估计,从而推断LLM的人格特征;5)分析跨语言和语言内部的人格特征差异,从而判断LLM人格的稳定性和一致性。

关键创新:论文的关键创新在于:1)采用了多语言的心理测量方法,更全面地考察了LLM的人格特征;2)使用了高斯混合模型和贝叶斯分析方法,对LLM的人格特征进行了更精细的建模和推断;3)提出了“无基质心理测量学”的概念,旨在建立一种与物种和基质无关的心理测量框架。

关键设计:论文的关键设计包括:1)选择合适的性格问卷,确保其在不同语言环境下具有可比性(具体问卷未知);2)选择合适的高斯混合模型参数,例如混合成分的数量(未知);3)选择合适的贝叶斯先验分布,确保参数估计的准确性(未知)。论文未提供损失函数和网络结构的细节,因为其主要关注点在于心理测量方法,而非模型训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,GPT语言模型在不同语言环境下表现出人格不稳定性,表明其缺乏一致的核心人格。通过高斯混合模型的贝叶斯分析,揭示了跨语言和语言内部的人格特征差异。这些结果强调了当前语言模型在安全性方面的潜在风险,并为未来的研究方向提供了重要启示。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型的安全性,降低其在实际应用中产生不安全行为的风险。通过更深入地了解LLM的人格特征和潜在风险,可以开发更有效的安全措施,确保AI系统在各个领域的应用更加可靠和可信。此外,无基质心理测量学的概念为跨物种和跨平台的心理测量研究提供了新的思路。

📄 摘要(原文)

Previous research on emergence in large language models shows these display apparent human-like abilities and psychological latent traits. However, results are partly contradicting in expression and magnitude of these latent traits, yet agree on the worrisome tendencies to score high on the Dark Triad of narcissism, psychopathy, and Machiavellianism, which, together with a track record of derailments, demands more rigorous research on safety of these models. We provided a state of the art language model with the same personality questionnaire in nine languages, and performed Bayesian analysis of Gaussian Mixture Model, finding evidence for a deeper-rooted issue. Our results suggest both interlingual and intralingual instabilities, which indicate that current language models do not develop a consistent core personality. This can lead to unsafe behaviour of artificial intelligence systems that are based on these foundation models, and are increasingly integrated in human life. We subsequently discuss the shortcomings of modern psychometrics, abstract it, and provide a framework for its species-neutral, substrate-free formulation.