CAPE: Context-Aware Personality Evaluation Framework for Large Language Models

📄 arXiv: 2508.20385v1 📥 PDF

作者: Jivnesh Sandhan, Fei Cheng, Tushar Sandhan, Yugo Murawaki

分类: cs.CL

发布日期: 2025-08-28

备注: Accepted at EMNLP25 (Findings)

🔗 代码/项目: GITHUB


💡 一句话要点

CAPE:提出上下文感知的LLM人格评估框架,解决现有方法忽略对话历史的问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 人格评估 上下文感知 一致性 角色扮演代理

📋 核心要点

  1. 现有LLM人格评估方法忽略了对话历史,导致评估结果脱离实际应用场景,无法反映真实的人格特征。
  2. CAPE框架通过引入先前的对话交互作为上下文,来评估LLM的人格,更贴近实际应用中LLM的交互方式。
  3. 实验表明,上下文学习能增强LLM响应的一致性,但也会导致人格转变,不同模型对上下文的依赖程度不同。

📝 摘要(中文)

本文提出了首个针对大型语言模型(LLM)的上下文感知人格评估(CAPE)框架,旨在弥补现有研究中忽略对话历史的不足。现有方法如同“迪士尼乐园测试”,在孤立情境下评估LLM,脱离了实际应用场景。CAPE框架通过整合先前的对话交互来评估LLM的人格。为了深入分析上下文的影响,本文引入了新的指标来量化LLM响应的一致性,这是人类行为的一个基本特征。对7个LLM的实验表明,对话历史通过上下文学习增强了响应一致性,但也导致了人格转变,其中GPT-3.5-Turbo和GPT-4-Turbo表现出极端的偏差。虽然GPT模型对问题顺序具有鲁棒性,但Gemini-1.5-Flash和Llama-8B表现出显著的敏感性。此外,GPT模型的回应源于其内在人格特征以及先前的互动,而Gemini-1.5-Flash和Llama-8B则严重依赖于先前的互动。最后,将CAPE框架应用于角色扮演代理(RPA)表明,上下文相关的人格转变提高了响应一致性,并更好地与人类判断相符。代码和数据集已公开。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)人格评估方法,例如传统的心理测量测试,通常采用上下文无关的方式,即每次回答问题时都忽略之前的对话历史。这种方式类似于“迪士尼乐园测试”,虽然可以避免上下文的干扰,但与实际应用场景严重脱节,因为在实际应用中,LLM的响应往往受到之前对话的影响。因此,如何设计一种能够考虑上下文信息的LLM人格评估方法,是本文要解决的核心问题。

核心思路:本文的核心思路是构建一个上下文感知的人格评估框架(CAPE),该框架通过将之前的对话历史作为输入,来评估LLM的人格。这种方法模拟了真实世界中人与人之间的交互方式,能够更准确地反映LLM在实际应用中的人格特征。通过分析上下文对LLM响应一致性的影响,可以更好地理解LLM的行为模式。

技术框架:CAPE框架的整体流程如下:首先,给定一个LLM和一个包含多个问题的心理测量测试。然后,对于每个问题,CAPE框架会将之前的对话历史(如果有的话)与当前问题拼接起来,作为LLM的输入。LLM根据输入生成响应。最后,CAPE框架使用预定义的指标来评估LLM响应的一致性,并分析上下文对LLM人格的影响。框架包含的主要模块包括:上下文构建模块、LLM推理模块和评估指标计算模块。

关键创新:本文最重要的技术创新点在于提出了上下文感知的人格评估框架(CAPE),这是第一个将上下文信息纳入LLM人格评估的框架。与现有方法相比,CAPE框架能够更准确地评估LLM在实际应用中的人格特征。此外,本文还提出了新的指标来量化LLM响应的一致性,这些指标可以用于分析上下文对LLM人格的影响。

关键设计:CAPE框架的关键设计包括:1) 上下文构建方式:如何选择和组织之前的对话历史,以最大程度地保留上下文信息。2) 评估指标:如何设计能够准确反映LLM响应一致性的指标。论文中使用了多种指标,包括基于语义相似度的指标和基于统计的指标。3) 模型选择:选择哪些LLM进行评估,以及如何设置LLM的超参数。论文中选择了7个不同的LLM,并使用了默认的超参数设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,对话历史能够通过上下文学习增强LLM响应的一致性,但也可能导致人格转变。GPT-3.5-Turbo和GPT-4-Turbo表现出极端的人格偏差,而Gemini-1.5-Flash和Llama-8B对问题顺序表现出显著的敏感性。GPT模型的回应更多地源于其内在人格特征,而Gemini-1.5-Flash和Llama-8B则更依赖于先前的互动。

🎯 应用场景

CAPE框架可应用于评估和优化LLM在各种对话场景中的表现,例如客户服务、虚拟助手和教育辅导。通过了解LLM在不同上下文中的人格特征,可以更好地设计LLM的交互策略,提高用户满意度和信任度。此外,CAPE框架还可以用于开发更具个性化和适应性的角色扮演代理,使其能够更好地模拟人类行为。

📄 摘要(原文)

Psychometric tests, traditionally used to assess humans, are now being applied to Large Language Models (LLMs) to evaluate their behavioral traits. However, existing studies follow a context-free approach, answering each question in isolation to avoid contextual influence. We term this the Disney World test, an artificial setting that ignores real-world applications, where conversational history shapes responses. To bridge this gap, we propose the first Context-Aware Personality Evaluation (CAPE) framework for LLMs, incorporating prior conversational interactions. To thoroughly analyze the influence of context, we introduce novel metrics to quantify the consistency of LLM responses, a fundamental trait in human behavior. Our exhaustive experiments on 7 LLMs reveal that conversational history enhances response consistency via in-context learning but also induces personality shifts, with GPT-3.5-Turbo and GPT-4-Turbo exhibiting extreme deviations. While GPT models are robust to question ordering, Gemini-1.5-Flash and Llama-8B display significant sensitivity. Moreover, GPT models response stem from their intrinsic personality traits as well as prior interactions, whereas Gemini-1.5-Flash and Llama--8B heavily depend on prior interactions. Finally, applying our framework to Role Playing Agents (RPAs) shows context-dependent personality shifts improve response consistency and better align with human judgments. Our code and datasets are publicly available at: https://github.com/jivnesh/CAPE