Projective Psychological Assessment of Large Multimodal Models Using Thematic Apperception Tests

📄 arXiv: 2602.17108v1 📥 PDF

作者: Anton Dzega, Aviad Elyashar, Ortal Slobodin, Odeya Cohen, Rami Puzis

分类: cs.CL

发布日期: 2026-02-19


💡 一句话要点

利用主题统觉测验评估大型多模态模型的人格特质

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态模型 人格评估 主题统觉测验 社会认知 客体关系 心理投射 人工智能伦理

📋 核心要点

  1. 现有方法难以评估大型多模态模型(LMMs)在非语言模态下的人格特质,缺乏系统性的评估框架。
  2. 利用主题统觉测验(TAT)作为评估框架,通过图像生成故事并使用SCORS-G量表进行评估,从而分析LMMs的人格。
  3. 实验结果表明,LMMs在理解人际关系和自我概念方面表现良好,但在感知和调节攻击性方面存在不足,且模型性能与规模和新旧程度相关。

📝 摘要(中文)

本研究采用主题统觉测验(TAT)这一心理测量学框架,系统性地区分人格功能中的认知表征和情感关系成分,从而评估大型多模态模型(LMMs)的人格特质。TAT是一种投射心理学框架,旨在揭示人格的无意识层面。本研究使用社会认知和客体关系量表-全局版(SCORS-G),检验是否可以通过非语言模态评估LMMs的人格特质。LMMs被应用于两个不同的角色:作为主体模型(SMs),生成对TAT图像的故事;以及作为评估模型(EMs),使用SCORS-G框架评估这些叙述。评估者表现出极好的理解和分析TAT反应的能力,他们的解释与人类专家的解释高度一致。评估结果表明,所有模型都很好地理解人际关系动态,并且对自我概念有很好的把握。然而,它们始终无法感知和调节攻击性。模型家族之间的表现存在系统性差异,更大和更新的模型在SCORS-G维度上始终优于更小和更早的模型。

🔬 方法详解

问题定义:现有方法难以有效评估大型多模态模型(LMMs)的人格特质,尤其是在非语言模态下。传统的评估方法可能侧重于语言理解和生成能力,而忽略了模型在更深层次的认知和情感方面的表现。因此,需要一种能够揭示模型潜在人格特征的评估框架。

核心思路:本研究的核心思路是借鉴心理学中的主题统觉测验(TAT),通过向LMMs展示图像并要求其生成故事,来激发模型在叙述中投射出其内在的“人格”特征。然后,使用社会认知和客体关系量表-全局版(SCORS-G)对这些故事进行评估,从而量化模型的人格特质。这种方法模拟了人类的心理投射过程,为评估LMMs的人格提供了一种新颖的视角。

技术框架:该研究的技术框架包含两个主要阶段:故事生成阶段和故事评估阶段。在故事生成阶段,LMMs作为主体模型(SMs),接收TAT图像作为输入,并生成相应的叙述故事。在故事评估阶段,LMMs作为评估模型(EMs),使用SCORS-G量表对SMs生成的故事进行分析和评分。SCORS-G量表包含多个维度,用于评估故事中的社会认知和客体关系,从而推断模型的人格特质。

关键创新:本研究的关键创新在于将心理学中的投射测验方法应用于评估人工智能模型的人格。这种方法突破了传统评估方法的局限,提供了一种非语言、多维度的评估框架。此外,研究还探索了LMMs在不同角色(故事生成者和评估者)下的表现,从而更全面地了解模型的能力。

关键设计:研究中使用了多个LMMs,包括不同规模和架构的模型,以便比较不同模型家族的表现。TAT图像的选择基于心理学研究的标准图像集。SCORS-G量表的评分标准参考了心理学专家的指导,以确保评估的准确性和可靠性。研究人员还对评估结果进行了统计分析,以验证模型之间的差异是否具有统计学意义。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LMMs在理解人际关系和自我概念方面表现出与人类专家高度一致的能力。然而,所有模型在感知和调节攻击性方面均存在不足。此外,研究发现模型性能与模型规模和发布时间存在正相关关系,即更大、更新的模型在SCORS-G维度上的表现更优。

🎯 应用场景

该研究成果可应用于评估和改进大型多模态模型的情感理解和人际交往能力,从而提升模型在人机交互、心理健康辅助、创意内容生成等领域的应用效果。未来,该方法还可用于开发更具同理心和情感智能的AI系统,促进人与AI之间的更自然、更有效的沟通。

📄 摘要(原文)

Thematic Apperception Test (TAT) is a psychometrically grounded, multidimensional assessment framework that systematically differentiates between cognitive-representational and affective-relational components of personality-like functioning. This test is a projective psychological framework designed to uncover unconscious aspects of personality. This study examines whether the personality traits of Large Multimodal Models (LMMs) can be assessed through non-language-based modalities, using the Social Cognition and Object Relations Scale - Global (SCORS-G). LMMs are employed in two distinct roles: as subject models (SMs), which generate stories in response to TAT images, and as evaluator models (EMs), who assess these narratives using the SCORS-G framework. Evaluators demonstrated an excellent ability to understand and analyze TAT responses. Their interpretations are highly consistent with those of human experts. Assessment results highlight that all models understand interpersonal dynamics very well and have a good grasp of the concept of self. However, they consistently fail to perceive and regulate aggression. Performance varied systematically across model families, with larger and more recent models consistently outperforming smaller and earlier ones across SCORS-G dimensions.