Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models
作者: Bang Zhang, Ruotian Ma, Qingxuan Jiang, Peisong Wang, Jiaqi Chen, Zheng Xie, Xingyu Chen, Yue Wang, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng Tu, Xiaolong Li
分类: cs.CL, cs.AI, cs.CY
发布日期: 2025-05-01 (更新: 2025-05-21)
备注: code: https://github.com/Tencent/digitalhuman/tree/main/SAGE
💡 一句话要点
提出SAGE框架,用于评估大语言模型的高阶社会认知能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型评估 社会认知 情感计算 多轮对话 同理心 智能Agent 心理学评估
📋 核心要点
- 现有评估方法难以准确衡量LLM对人类情感和社会认知的理解,而不仅仅是文本处理能力。
- SAGE框架通过模拟具有情感变化的智能体,在多轮对话中评估LLM的社会认知能力,更贴近真实人际互动。
- 实验表明SAGE评估结果与心理学指标高度相关,并揭示了不同LLM在社会认知能力上的显著差距。
📝 摘要(中文)
本文提出了一种名为Sentient Agent as a Judge (SAGE) 的自动化评估框架,旨在衡量大语言模型(LLM)的高阶社会认知能力,而不仅仅是文本理解能力。SAGE实例化一个Sentient Agent,该Agent在交互过程中模拟类人的情感变化和内心想法,从而更真实地评估被测模型在多轮对话中的表现。在每一轮对话中,该Agent推理(i)其情感如何变化,(ii)其感受如何,以及(iii)它应该如何回复,从而产生一个数值化的情感轨迹和可解释的内心想法。在100个支持性对话场景上的实验表明,最终的Sentient情感得分与Barrett-Lennard关系量表(BLRI)评分和话语级同理心指标高度相关,验证了心理学上的保真度。我们还构建了一个公开的Sentient排行榜,涵盖18个商业和开源模型,揭示了前沿系统(GPT-4o-Latest, Gemini2.5-Pro)与早期基线之间存在显著差距(高达4倍),而这些差距并未反映在传统的排行榜(例如Arena)中。因此,SAGE为跟踪迈向真正具有同理心和社交能力的语言Agent的进展提供了一个原则性、可扩展和可解释的工具。
🔬 方法详解
问题定义:现有的大语言模型评估方法主要集中在语言能力、知识掌握等方面,缺乏对模型高阶社会认知能力的有效评估,例如同理心、情绪理解等。传统的评估方法难以捕捉模型在多轮对话中情感变化的细微之处,也无法提供可解释的评估结果。因此,如何设计一种能够真实反映LLM社会认知水平的评估框架是一个重要的问题。
核心思路:SAGE的核心思路是构建一个能够模拟人类情感变化的“Sentient Agent”,通过让该Agent与被评估的LLM进行多轮对话,并观察Agent的情感变化轨迹和内心想法,从而推断LLM的社会认知能力。这种方法模拟了真实的人际互动场景,能够更准确地评估LLM在理解和回应人类情感方面的能力。
技术框架:SAGE框架主要包含以下几个模块:1) 场景构建模块:用于生成各种支持性对话场景,例如安慰、鼓励等。2) Sentient Agent模块:该模块负责模拟人类的情感变化和内心想法。在每一轮对话中,Agent会根据对话内容和自身的情感状态,推理出新的情感状态、感受以及回复。3) LLM评估模块:该模块负责与Sentient Agent进行对话,并根据Agent的情感变化轨迹和内心想法,评估LLM的社会认知能力。4) 评估指标模块:该模块定义了一系列评估指标,例如情感得分、同理心得分等,用于量化LLM的社会认知能力。
关键创新:SAGE的关键创新在于引入了“Sentient Agent”的概念,通过模拟人类的情感变化和内心想法,实现了对LLM高阶社会认知能力的更真实、更可解释的评估。与传统的评估方法相比,SAGE能够更好地捕捉LLM在多轮对话中情感变化的细微之处,并提供可解释的评估结果。
关键设计:在Sentient Agent模块中,情感变化和内心想法的推理过程可以通过预定义的规则、机器学习模型或两者结合的方式实现。情感状态可以使用离散的情感标签或连续的情感向量表示。评估指标可以根据具体的应用场景进行定制,例如,可以使用情感得分来衡量LLM的情感理解能力,使用同理心得分来衡量LLM的同理心水平。具体的情感变化规则和推理模型的设计细节在论文中可能没有详细展开,属于可定制的部分。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SAGE评估框架得到的Sentient情感得分与Barrett-Lennard关系量表(BLRI)评分和话语级同理心指标高度相关,验证了其心理学上的保真度。SAGE排行榜揭示了GPT-4o-Latest和Gemini2.5-Pro等前沿模型与早期基线之间存在高达4倍的差距,而这些差距在传统排行榜中并未体现,突显了SAGE在评估高阶社会认知能力方面的优势。
🎯 应用场景
SAGE框架可应用于开发更具同理心和社交能力的AI助手,例如心理咨询机器人、情感支持聊天机器人等。通过SAGE评估,可以有效提升AI在人际互动中的表现,使其更好地理解和回应人类情感需求,从而在医疗、教育、客户服务等领域发挥更大的作用。此外,SAGE还可以用于评估不同LLM的社会认知能力,为模型选择和优化提供参考。
📄 摘要(原文)
Assessing how well a large language model (LLM) understands human, rather than merely text, remains an open challenge. To bridge the gap, we introduce Sentient Agent as a Judge (SAGE), an automated evaluation framework that measures an LLM's higher-order social cognition. SAGE instantiates a Sentient Agent that simulates human-like emotional changes and inner thoughts during interaction, providing a more realistic evaluation of the tested model in multi-turn conversations. At every turn, the agent reasons about (i) how its emotion changes, (ii) how it feels, and (iii) how it should reply, yielding a numerical emotion trajectory and interpretable inner thoughts. Experiments on 100 supportive-dialogue scenarios show that the final Sentient emotion score correlates strongly with Barrett-Lennard Relationship Inventory (BLRI) ratings and utterance-level empathy metrics, validating psychological fidelity. We also build a public Sentient Leaderboard covering 18 commercial and open-source models that uncovers substantial gaps (up to 4x) between frontier systems (GPT-4o-Latest, Gemini2.5-Pro) and earlier baselines, gaps not reflected in conventional leaderboards (e.g., Arena). SAGE thus provides a principled, scalable and interpretable tool for tracking progress toward genuinely empathetic and socially adept language agents.