Leveraging Implicit Sentiments: Enhancing Reliability and Validity in Psychological Trait Evaluation of LLMs

📄 arXiv: 2503.20182v1 📥 PDF

作者: Huanhuan Ma, Haisong Gong, Xiaoyuan Yi, Xing Xie, Dongkuan Xu

分类: cs.CL, cs.AI

发布日期: 2025-03-26

备注: Code available via https://github.com/dependentsign/CSI

🔗 代码/项目: GITHUB


💡 一句话要点

提出CSI量表,用于更可靠、有效地评估大型语言模型的情感倾向。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 情感评估 心理评估 可靠性 有效性 核心情感量表 CSI 情感倾向

📋 核心要点

  1. 现有基于人类心理评估方法评估LLM情感倾向,可靠性和有效性不足,难以预测真实行为。
  2. 提出核心情感量表(CSI),通过隐式评估LLM在乐观、悲观和中立三个维度上的情感倾向,构建心理画像。
  3. 实验表明,CSI能有效捕捉情感模式,提高评估可靠性,且CSI评分与LLM真实输出情感的相关性高。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地融入人类生活。随着它们从单纯的工具转变为类人助手,理解其心理层面——如情感倾向和个性——对于确保其可信度至关重要。然而,目前对LLMs的心理评估,通常基于人类心理评估方法(如BFI),存在显著局限性。这些方法的结果往往缺乏可靠性,并且在预测LLM在现实场景中的行为时,有效性有限。本文提出了一种专门为LLMs设计的新型评估工具,称为核心情感量表(CSI)。CSI是一种双语工具,涵盖英语和中文,可以隐式地评估模型的情感倾向,从而提供LLM在乐观、悲观和中立三个维度上的深刻心理画像。通过大量实验,证明了:1) CSI有效地捕捉了细微的情感模式,揭示了LLMs在不同语言和上下文中的显著差异;2) 与当前方法相比,CSI显著提高了可靠性,产生了更一致的结果;3) CSI评分与LLM真实输出的情感之间的相关性超过0.85,证明了其在预测LLM行为方面的强大有效性。CSI已公开可用。

🔬 方法详解

问题定义:现有的大型语言模型(LLMs)心理评估方法,尤其是那些直接借鉴人类心理评估工具(如BFI)的方法,在应用于LLMs时表现出可靠性和有效性不足的问题。这些方法难以准确捕捉LLMs的情感倾向,并且无法有效预测LLMs在实际应用中的行为表现。因此,需要一种专门为LLMs设计,能够更准确、可靠地评估其情感倾向的工具。

核心思路:论文的核心思路是设计一种隐式的情感评估方法,避免直接询问LLMs的情感状态,而是通过分析LLMs在特定任务中的输出,推断其潜在的情感倾向。这种方法基于一个假设:LLMs的情感倾向会潜移默化地影响其生成文本的风格和内容。因此,通过设计合适的任务和分析方法,可以有效地揭示LLMs的情感倾向。

技术框架:CSI的核心框架包含以下几个主要步骤:1) 任务设计:设计一系列能够激发LLMs情感反应的任务,例如,给定一个情境,要求LLM生成一段描述或评论。2) 情感标注:对LLMs生成的文本进行情感标注,标注维度包括乐观、悲观和中立。3) 情感评分:基于情感标注结果,计算LLMs在各个情感维度上的得分。4) 量表验证:通过实验验证CSI的可靠性和有效性,例如,通过重复实验评估结果的一致性,以及通过与LLMs真实行为的对比评估预测能力。

关键创新:CSI的关键创新在于其隐式情感评估方法。与直接询问LLMs情感状态的方法不同,CSI通过分析LLMs在特定任务中的输出,推断其潜在的情感倾向。这种方法避免了LLMs可能存在的虚假或不一致的回答,从而提高了评估的可靠性和有效性。此外,CSI还针对LLMs的特点进行了专门设计,例如,考虑了LLMs在不同语言和上下文中的表现差异。

关键设计:CSI的关键设计包括:1) 任务选择:选择能够有效激发LLMs情感反应的任务,例如,给定一个具有情感色彩的情境,要求LLM生成一段描述或评论。2) 情感标注体系:建立一套清晰、明确的情感标注体系,包括乐观、悲观和中立三个维度,并提供详细的标注指南,以确保标注的一致性。3) 评分方法:设计合理的评分方法,将情感标注结果转化为LLMs在各个情感维度上的得分。例如,可以采用加权平均的方法,根据不同情感词的重要性赋予不同的权重。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,CSI能够有效捕捉LLMs在不同语言和上下文中的情感差异。与现有方法相比,CSI显著提高了评估的可靠性,产生了更一致的结果。CSI评分与LLM真实输出情感的相关性超过0.85,证明了其在预测LLM行为方面的强大有效性。CSI的开源发布将促进LLM心理评估领域的研究和发展。

🎯 应用场景

CSI可应用于评估和监控大型语言模型的情感倾向,帮助开发者了解模型在不同场景下的行为模式。这有助于提高LLM的安全性、可靠性和可信度,并促进其在情感支持、人机交互等领域的应用。未来,CSI可扩展到更多语言和情感维度,并与其他评估指标结合,构建更全面的LLM评估体系。

📄 摘要(原文)

Recent advancements in Large Language Models (LLMs) have led to their increasing integration into human life. With the transition from mere tools to human-like assistants, understanding their psychological aspects-such as emotional tendencies and personalities-becomes essential for ensuring their trustworthiness. However, current psychological evaluations of LLMs, often based on human psychological assessments like the BFI, face significant limitations. The results from these approaches often lack reliability and have limited validity when predicting LLM behavior in real-world scenarios. In this work, we introduce a novel evaluation instrument specifically designed for LLMs, called Core Sentiment Inventory (CSI). CSI is a bilingual tool, covering both English and Chinese, that implicitly evaluates models' sentiment tendencies, providing an insightful psychological portrait of LLM across three dimensions: optimism, pessimism, and neutrality. Through extensive experiments, we demonstrate that: 1) CSI effectively captures nuanced emotional patterns, revealing significant variation in LLMs across languages and contexts; 2) Compared to current approaches, CSI significantly improves reliability, yielding more consistent results; and 3) The correlation between CSI scores and the sentiment of LLM's real-world outputs exceeds 0.85, demonstrating its strong validity in predicting LLM behavior. We make CSI public available via: https://github.com/dependentsign/CSI.