CAPE: Context-Aware Personality Evaluation Framework for Large Language Models

作者: Jivnesh Sandhan, Fei Cheng, Tushar Sandhan, Yugo Murawaki

分类: cs.CL

发布日期: 2025-08-28

备注: Accepted at EMNLP25 (Findings)

🔗 代码/项目: GITHUB

💡 一句话要点

CAPE：提出上下文感知的LLM人格评估框架，解决现有方法忽略对话历史的问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 人格评估 上下文感知 一致性 角色扮演代理

📋 核心要点

现有LLM人格评估方法忽略了对话历史，导致评估结果脱离实际应用场景，无法反映真实的人格特征。
CAPE框架通过引入先前的对话交互作为上下文，来评估LLM的人格，更贴近实际应用中LLM的交互方式。
实验表明，上下文学习能增强LLM响应的一致性，但也会导致人格转变，不同模型对上下文的依赖程度不同。

📝 摘要（中文）

本文提出了首个针对大型语言模型（LLM）的上下文感知人格评估（CAPE）框架，旨在弥补现有研究中忽略对话历史的不足。现有方法如同“迪士尼乐园测试”，在孤立情境下评估LLM，脱离了实际应用场景。CAPE框架通过整合先前的对话交互来评估LLM的人格。为了深入分析上下文的影响，本文引入了新的指标来量化LLM响应的一致性，这是人类行为的一个基本特征。对7个LLM的实验表明，对话历史通过上下文学习增强了响应一致性，但也导致了人格转变，其中GPT-3.5-Turbo和GPT-4-Turbo表现出极端的偏差。虽然GPT模型对问题顺序具有鲁棒性，但Gemini-1.5-Flash和Llama-8B表现出显著的敏感性。此外，GPT模型的回应源于其内在人格特征以及先前的互动，而Gemini-1.5-Flash和Llama-8B则严重依赖于先前的互动。最后，将CAPE框架应用于角色扮演代理（RPA）表明，上下文相关的人格转变提高了响应一致性，并更好地与人类判断相符。代码和数据集已公开。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）人格评估方法，例如传统的心理测量测试，通常采用上下文无关的方式，即每次回答问题时都忽略之前的对话历史。这种方式类似于“迪士尼乐园测试”，虽然可以避免上下文的干扰，但与实际应用场景严重脱节，因为在实际应用中，LLM的响应往往受到之前对话的影响。因此，如何设计一种能够考虑上下文信息的LLM人格评估方法，是本文要解决的核心问题。

核心思路：本文的核心思路是构建一个上下文感知的人格评估框架（CAPE），该框架通过将之前的对话历史作为输入，来评估LLM的人格。这种方法模拟了真实世界中人与人之间的交互方式，能够更准确地反映LLM在实际应用中的人格特征。通过分析上下文对LLM响应一致性的影响，可以更好地理解LLM的行为模式。

技术框架：CAPE框架的整体流程如下：首先，给定一个LLM和一个包含多个问题的心理测量测试。然后，对于每个问题，CAPE框架会将之前的对话历史（如果有的话）与当前问题拼接起来，作为LLM的输入。LLM根据输入生成响应。最后，CAPE框架使用预定义的指标来评估LLM响应的一致性，并分析上下文对LLM人格的影响。框架包含的主要模块包括：上下文构建模块、LLM推理模块和评估指标计算模块。

关键创新：本文最重要的技术创新点在于提出了上下文感知的人格评估框架（CAPE），这是第一个将上下文信息纳入LLM人格评估的框架。与现有方法相比，CAPE框架能够更准确地评估LLM在实际应用中的人格特征。此外，本文还提出了新的指标来量化LLM响应的一致性，这些指标可以用于分析上下文对LLM人格的影响。

关键设计：CAPE框架的关键设计包括：1) 上下文构建方式：如何选择和组织之前的对话历史，以最大程度地保留上下文信息。2) 评估指标：如何设计能够准确反映LLM响应一致性的指标。论文中使用了多种指标，包括基于语义相似度的指标和基于统计的指标。3) 模型选择：选择哪些LLM进行评估，以及如何设置LLM的超参数。论文中选择了7个不同的LLM，并使用了默认的超参数设置。

🖼️ 关键图片

📊 实验亮点

实验结果表明，对话历史能够通过上下文学习增强LLM响应的一致性，但也可能导致人格转变。GPT-3.5-Turbo和GPT-4-Turbo表现出极端的人格偏差，而Gemini-1.5-Flash和Llama-8B对问题顺序表现出显著的敏感性。GPT模型的回应更多地源于其内在人格特征，而Gemini-1.5-Flash和Llama-8B则更依赖于先前的互动。

🎯 应用场景

CAPE框架可应用于评估和优化LLM在各种对话场景中的表现，例如客户服务、虚拟助手和教育辅导。通过了解LLM在不同上下文中的人格特征，可以更好地设计LLM的交互策略，提高用户满意度和信任度。此外，CAPE框架还可以用于开发更具个性化和适应性的角色扮演代理，使其能够更好地模拟人类行为。

📄 摘要（原文）

Psychometric tests, traditionally used to assess humans, are now being applied to Large Language Models (LLMs) to evaluate their behavioral traits. However, existing studies follow a context-free approach, answering each question in isolation to avoid contextual influence. We term this the Disney World test, an artificial setting that ignores real-world applications, where conversational history shapes responses. To bridge this gap, we propose the first Context-Aware Personality Evaluation (CAPE) framework for LLMs, incorporating prior conversational interactions. To thoroughly analyze the influence of context, we introduce novel metrics to quantify the consistency of LLM responses, a fundamental trait in human behavior. Our exhaustive experiments on 7 LLMs reveal that conversational history enhances response consistency via in-context learning but also induces personality shifts, with GPT-3.5-Turbo and GPT-4-Turbo exhibiting extreme deviations. While GPT models are robust to question ordering, Gemini-1.5-Flash and Llama-8B display significant sensitivity. Moreover, GPT models response stem from their intrinsic personality traits as well as prior interactions, whereas Gemini-1.5-Flash and Llama--8B heavily depend on prior interactions. Finally, applying our framework to Role Playing Agents (RPAs) shows context-dependent personality shifts improve response consistency and better align with human judgments. Our code and datasets are publicly available at: https://github.com/jivnesh/CAPE

CAPE: Context-Aware Personality Evaluation Framework for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理