Assessment and manipulation of latent constructs in pre-trained language models using psychometric scales

📄 arXiv: 2409.19655v2 📥 PDF

作者: Maor Reuben, Ortal Slobodin, Aviad Elyshar, Idan-Chaim Cohen, Orna Braun-Lewensohn, Odeya Cohen, Rami Puzis

分类: cs.CL, cs.AI

发布日期: 2024-09-29 (更新: 2025-01-13)


💡 一句话要点

提出基于自然语言推理提示的心理测量方法,评估并操控预训练语言模型的潜在心理结构。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 预训练语言模型 心理测量学 自然语言推理 心理结构 模型评估

📋 核心要点

  1. 现有方法难以评估大量为特定任务训练的、结构简单的Transformer模型的潜在心理结构。
  2. 论文将标准心理问卷转化为自然语言推理提示,并提供代码库以支持任意模型的心理测量评估。
  3. 实验证明,语言模型中存在类似人类的心理健康相关结构,且与人类心理学理论相符,并可进行缓解。

📝 摘要(中文)

大型语言模型中近期发现了类似人类的性格特征,这引发了一个假设:它们已知和未知的偏见符合人类潜在的心理结构。虽然大型对话模型可能会被诱骗回答心理测量问卷,但由于目前缺乏适当的心理测量方法,无法评估数千个为其他任务训练的简单Transformer模型的潜在心理结构。本文展示了如何将标准心理问卷重新构建为自然语言推理提示,并提供了一个代码库来支持对任意模型的心理测量评估。通过对88个公开模型的样本进行实验,证明了存在与人类心理学标准理论相符的、类似人类的心理健康相关结构(包括焦虑、抑郁和连贯感),并显示出相似的相关性和缓解策略。利用心理学工具解释和纠正语言模型性能的能力可以促进更具可解释性、可控性和值得信赖的模型的开发。

🔬 方法详解

问题定义:论文旨在解决如何评估预训练语言模型中潜在的、类似人类的心理结构的问题。现有方法,例如直接让模型回答心理测量问卷,对于大型对话模型可能有效,但对于大量为特定任务训练的、结构简单的Transformer模型则不适用,因为这些模型可能无法理解或正确回答问卷。

核心思路:论文的核心思路是将标准的心理测量问卷重新构建为自然语言推理(NLI)提示。通过将问题转化为NLI的形式,可以更有效地评估模型在特定心理结构上的倾向,即使模型没有经过专门的心理学训练。这种方法允许研究者探究模型中是否存在与人类相似的心理特征,例如焦虑、抑郁等。

技术框架:该方法主要包含以下几个阶段:1) 将标准心理测量问卷转化为自然语言推理提示。2) 使用这些提示评估预训练语言模型。3) 分析模型在不同心理结构上的得分,并与人类心理学理论进行比较。4) 探索缓解模型中不良心理倾向的策略。论文还提供了一个代码库,方便研究者使用该方法评估任意模型。

关键创新:该方法最重要的创新点在于将心理测量问卷转化为自然语言推理提示,从而能够评估大量未经过专门心理学训练的预训练语言模型的潜在心理结构。这与传统方法直接让模型回答问卷的方式有本质区别,因为传统方法依赖于模型对问卷的理解能力,而该方法则通过NLI任务来间接评估模型的心理倾向。

关键设计:论文的关键设计包括:1) 如何将心理测量问卷转化为有效的自然语言推理提示。这需要仔细设计提示的结构和内容,以确保能够准确地评估模型在特定心理结构上的倾向。2) 如何分析模型在不同心理结构上的得分,并与人类心理学理论进行比较。这需要使用适当的统计方法来分析数据,并解释结果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过对88个公开可用的预训练语言模型进行实验,证明了这些模型中存在与人类相似的心理健康相关结构,例如焦虑、抑郁和连贯感。实验结果表明,这些心理结构与人类心理学标准理论相符,并显示出相似的相关性和缓解策略。这些发现为理解和控制语言模型的行为提供了新的视角。

🎯 应用场景

该研究成果可应用于开发更具可解释性、可控性和值得信赖的语言模型。通过了解和控制模型中的潜在心理结构,可以减少模型中的偏见和不良倾向,从而提高模型的安全性和可靠性。此外,该方法还可以用于评估和比较不同模型的心理特征,为模型选择和优化提供依据。

📄 摘要(原文)

Human-like personality traits have recently been discovered in large language models, raising the hypothesis that their (known and as yet undiscovered) biases conform with human latent psychological constructs. While large conversational models may be tricked into answering psychometric questionnaires, the latent psychological constructs of thousands of simpler transformers, trained for other tasks, cannot be assessed because appropriate psychometric methods are currently lacking. Here, we show how standard psychological questionnaires can be reformulated into natural language inference prompts, and we provide a code library to support the psychometric assessment of arbitrary models. We demonstrate, using a sample of 88 publicly available models, the existence of human-like mental health-related constructs (including anxiety, depression, and Sense of Coherence) which conform with standard theories in human psychology and show similar correlations and mitigation strategies. The ability to interpret and rectify the performance of language models by using psychological tools can boost the development of more explainable, controllable, and trustworthy models.