Evaluating and Modeling Social Intelligence: A Comparative Study of Human and AI Capabilities

📄 arXiv: 2405.11841v1 📥 PDF

作者: Junqi Wang, Chunhui Zhang, Jiapeng Li, Yuxi Ma, Lixing Niu, Jiaheng Han, Yujia Peng, Yixin Zhu, Lifeng Fan

分类: cs.AI

发布日期: 2024-05-20

备注: Also published in Proceedings of the Annual Meeting of the Cognitive Science Society (CogSci), 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出社交智能评估基准,揭示LLM与人类在逆向推理和规划上的差距

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 社交智能 逆向推理 逆向规划 大型语言模型 递归贝叶斯推理

📋 核心要点

  1. 现有方法难以有效评估AI的社交智能,尤其是在逆向推理和规划等复杂任务中。
  2. 论文构建了基于递归贝叶斯推理的计算模型,并设计了逆向推理(IR)和逆向逆向规划(IIP)任务。
  3. 实验表明,人类在社交智能任务上显著优于GPT模型,尤其是在高阶推理和泛化能力方面。

📝 摘要(中文)

本研究针对大型语言模型(LLMs)是否达到接近人类智能水平的争论,提出了一个评估社交智能的基准,社交智能是人类认知最独特的方面之一。我们为社会动态开发了一个全面的理论框架,并引入了两个评估任务:逆向推理(IR)和逆向逆向规划(IIP)。我们的方法还包括一个基于递归贝叶斯推理的计算模型,擅长阐明各种人类行为模式。广泛的实验和详细的分析表明,人类在整体性能、零样本学习、单样本泛化以及对多模态的适应性方面都超过了最新的GPT模型。值得注意的是,GPT模型仅在最基本的阶数(阶数=0)上表现出社交智能,这与人类的社交智能(阶数>=2)形成鲜明对比。进一步的检查表明,LLM倾向于依赖模式识别来走捷径,这让人怀疑它们是否拥有真正的人类水平的社交智能。我们的代码、数据集、附录和人类数据已在https://github.com/bigai-ai/Evaluate-n-Model-Social-Intelligence上发布。

🔬 方法详解

问题定义:当前大型语言模型(LLMs)的能力备受关注,但其社交智能水平仍不明确。现有方法缺乏针对社交智能的有效评估基准,难以准确衡量LLMs在理解他人意图、预测他人行为等方面的能力。特别是,在涉及逆向推理和逆向逆向规划等复杂社会动态的任务中,现有方法的不足更加明显。

核心思路:论文的核心思路是构建一个全面的社交智能评估框架,该框架基于社会动态的理论基础,并设计了相应的评估任务。通过逆向推理(IR)和逆向逆向规划(IIP)任务,考察模型从观察到的行为反推行为者意图和信念的能力。同时,采用递归贝叶斯推理作为计算模型,模拟人类的社会认知过程。

技术框架:该研究的技术框架主要包括以下几个部分:1) 社交动态理论框架:用于指导任务设计和模型构建。2) 逆向推理(IR)任务:要求模型根据观察到的行为推断行为者的目标。3) 逆向逆向规划(IIP)任务:要求模型根据观察到的行为推断行为者如何推断其他行为者的目标。4) 递归贝叶斯推理模型:用于模拟人类的社会认知过程,并作为基线模型与LLMs进行比较。

关键创新:该研究的关键创新在于:1) 提出了一个针对社交智能的综合评估基准,包括逆向推理(IR)和逆向逆向规划(IIP)任务,能够更全面地评估模型的社交智能水平。2) 采用递归贝叶斯推理作为计算模型,更贴近人类的社会认知过程。3) 通过实验揭示了LLMs在社交智能方面与人类的差距,尤其是在高阶推理和泛化能力方面。

关键设计:在任务设计方面,IR和IIP任务都采用了精心设计的场景和规则,以确保任务的难度和区分度。在模型方面,递归贝叶斯推理模型采用了合理的先验分布和似然函数,以模拟人类的信念更新过程。实验中,对GPT模型进行了零样本和单样本测试,以评估其泛化能力。此外,还考虑了多模态输入,以考察模型对不同类型信息的处理能力。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,人类在逆向推理(IR)和逆向逆向规划(IIP)任务上的表现显著优于GPT模型。GPT模型仅在最基本的阶数(order = 0)上表现出一定的社交智能,而人类则能达到更高的阶数(order >= 2)。此外,GPT模型在零样本学习和单样本泛化方面的表现也明显逊于人类,表明其在社交智能方面存在明显的局限性。

🎯 应用场景

该研究成果可应用于开发更具社交智能的AI系统,例如,在人机交互、自动驾驶、智能助手等领域,提升AI对人类意图的理解和行为预测能力,从而实现更自然、更高效的人机协作。此外,该研究提出的评估基准可用于衡量不同AI模型的社交智能水平,促进相关技术的发展。

📄 摘要(原文)

Facing the current debate on whether Large Language Models (LLMs) attain near-human intelligence levels (Mitchell & Krakauer, 2023; Bubeck et al., 2023; Kosinski, 2023; Shiffrin & Mitchell, 2023; Ullman, 2023), the current study introduces a benchmark for evaluating social intelligence, one of the most distinctive aspects of human cognition. We developed a comprehensive theoretical framework for social dynamics and introduced two evaluation tasks: Inverse Reasoning (IR) and Inverse Inverse Planning (IIP). Our approach also encompassed a computational model based on recursive Bayesian inference, adept at elucidating diverse human behavioral patterns. Extensive experiments and detailed analyses revealed that humans surpassed the latest GPT models in overall performance, zero-shot learning, one-shot generalization, and adaptability to multi-modalities. Notably, GPT models demonstrated social intelligence only at the most basic order (order = 0), in stark contrast to human social intelligence (order >= 2). Further examination indicated a propensity of LLMs to rely on pattern recognition for shortcuts, casting doubt on their possession of authentic human-level social intelligence. Our codes, dataset, appendix and human data are released at https://github.com/bigai-ai/Evaluate-n-Model-Social-Intelligence.