CAPE: Context-Aware Personality Evaluation Framework for Large Language Models

作者: Jivnesh Sandhan, Fei Cheng, Tushar Sandhan, Yugo Murawaki

分类: cs.CL

发布日期: 2025-08-28

备注: Accepted at EMNLP25 (Findings)

🔗 代码/项目: GITHUB

💡 一句话要点

提出CAPE框架以解决LLMs个性评估中的上下文缺失问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 个性评估 上下文感知 大型语言模型 对话系统 心理测量 机器学习 人机交互

📋 核心要点

现有方法在评估大型语言模型的个性时缺乏上下文考虑，导致评估结果不够真实和有效。
本文提出的CAPE框架通过整合对话历史，能够更全面地评估LLMs的个性特征，克服了传统方法的局限性。
实验结果表明，CAPE框架显著提高了响应一致性，并揭示了不同模型在个性表现上的差异，尤其是GPT系列模型的鲁棒性。

📝 摘要（中文）

心理测量测试传统上用于评估人类行为特征，现在被应用于大型语言模型（LLMs）以评估其行为特征。然而，现有研究采用无上下文的方法，孤立回答每个问题，忽视了对话历史的影响。为此，本文提出了首个上下文感知个性评估框架（CAPE），将先前的对话交互纳入评估中。通过引入新颖的度量标准来量化LLM响应的一致性，研究表明对话历史增强了响应一致性，但也导致个性偏移。实验结果显示，GPT模型对问题顺序具有鲁棒性，而其他模型则表现出显著敏感性。应用该框架于角色扮演代理（RPA）时，发现上下文依赖的个性偏移提高了响应一致性，更好地符合人类判断。

🔬 方法详解

问题定义：本文旨在解决现有大型语言模型个性评估中缺乏上下文的局限性，传统方法孤立回答问题，无法反映真实的对话情境。

核心思路：CAPE框架通过引入对话历史，考虑上下文对模型响应的影响，从而更准确地评估模型的个性特征。

技术框架：CAPE框架包括数据收集、对话历史整合、个性评估和一致性度量四个主要模块，形成一个闭环评估系统。

关键创新：引入新颖的度量标准来量化模型响应的一致性，强调上下文对个性评估的重要性，这是与现有方法的本质区别。

关键设计：在模型训练中，采用了特定的损失函数来优化响应一致性，并设计了适应不同模型架构的参数设置，以确保框架的通用性和有效性。

📊 实验亮点

实验结果显示，CAPE框架显著提高了响应一致性，尤其在GPT-3.5-Turbo和GPT-4-Turbo模型中，个性偏移现象明显。与基线模型相比，CAPE框架提升了响应一致性，且在角色扮演代理中表现出更好的与人类判断的一致性。

🎯 应用场景

CAPE框架具有广泛的应用潜力，尤其在人机交互、虚拟助手和角色扮演游戏等领域。通过更准确的个性评估，能够提升用户体验，使得AI系统在与人类交互时表现得更加自然和人性化。未来，该框架还可以扩展到其他类型的对话系统中，推动个性化AI的发展。

📄 摘要（原文）

Psychometric tests, traditionally used to assess humans, are now being applied to Large Language Models (LLMs) to evaluate their behavioral traits. However, existing studies follow a context-free approach, answering each question in isolation to avoid contextual influence. We term this the Disney World test, an artificial setting that ignores real-world applications, where conversational history shapes responses. To bridge this gap, we propose the first Context-Aware Personality Evaluation (CAPE) framework for LLMs, incorporating prior conversational interactions. To thoroughly analyze the influence of context, we introduce novel metrics to quantify the consistency of LLM responses, a fundamental trait in human behavior. Our exhaustive experiments on 7 LLMs reveal that conversational history enhances response consistency via in-context learning but also induces personality shifts, with GPT-3.5-Turbo and GPT-4-Turbo exhibiting extreme deviations. While GPT models are robust to question ordering, Gemini-1.5-Flash and Llama-8B display significant sensitivity. Moreover, GPT models response stem from their intrinsic personality traits as well as prior interactions, whereas Gemini-1.5-Flash and Llama--8B heavily depend on prior interactions. Finally, applying our framework to Role Playing Agents (RPAs) shows context-dependent personality shifts improve response consistency and better align with human judgments. Our code and datasets are publicly available at: https://github.com/jivnesh/CAPE

CAPE: Context-Aware Personality Evaluation Framework for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册