SocialMaze: A Benchmark for Evaluating Social Reasoning in Large Language Models

📄 arXiv: 2505.23713v1 📥 PDF

作者: Zixiang Xu, Yanbo Wang, Yue Huang, Jiayi Ye, Haomin Zhuang, Zirui Song, Lang Gao, Chenxi Wang, Zhaorun Chen, Yujun Zhou, Sixian Li, Wang Pan, Yue Zhao, Jieyu Zhao, Xiangliang Zhang, Xiuying Chen

分类: cs.CL

发布日期: 2025-05-29

备注: Code available at https://github.com/xzx34/SocialMaze

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

SocialMaze:用于评估大语言模型社会推理能力的新基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 社会推理 大语言模型 基准测试 深度推理 动态交互 信息不确定性 社会场景 LLM评估

📋 核心要点

  1. 现有评估LLM社会推理能力的方法过于简化现实场景,无法充分挑战先进模型。
  2. SocialMaze基准通过深度推理、动态交互和信息不确定性三个核心挑战,系统性地评估LLM的社会推理能力。
  3. 实验表明,模型在动态交互和不确定性下的推理能力有待提高,而针对性微调可以显著提升性能。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地应用于社会相关的任务,如在线社区管理、媒体内容分析和社会推理游戏。在这些场景中的成功取决于模型社会推理能力,即解释社会环境、推断他人心理状态以及评估信息真实性的能力。然而,目前缺乏系统性的评估框架来全面评估LLMs的社会推理能力。现有的方法通常过度简化现实场景,包含的任务过于基础,难以挑战先进的模型。为了解决这一差距,我们引入了SocialMaze,这是一个专门为评估社会推理而设计的新基准。SocialMaze系统地整合了三个核心挑战:深度推理、动态交互和信息不确定性。它在三个关键设置(社会推理游戏、日常生活互动和数字社区平台)中提供了六个不同的任务。我们使用自动化和人工验证来确保数据质量。我们的评估揭示了几个关键见解:模型在处理动态交互和整合时间演变信息的能力方面差异很大;具有强大思维链推理的模型在需要超越表面线索进行更深层次推理的任务中表现更好;模型推理在不确定性下会显著降低。此外,我们表明,针对精心设计的推理示例进行微调可以大大提高模型在复杂社会场景中的性能。该数据集可在https://huggingface.co/datasets/MBZUAI/SocialMaze公开获取。

🔬 方法详解

问题定义:论文旨在解决现有LLM社会推理能力评估不足的问题。现有方法要么过于简单,无法有效评估模型的真实社会推理能力,要么缺乏对深度推理、动态交互和信息不确定性等关键因素的考虑。这使得我们难以准确了解LLM在复杂社会环境中的表现,阻碍了其在相关领域的应用。

核心思路:论文的核心思路是构建一个更具挑战性和现实性的社会推理基准,即SocialMaze。该基准通过设计包含深度推理、动态交互和信息不确定性的任务,迫使模型进行更复杂的推理和决策,从而更全面地评估其社会推理能力。

技术框架:SocialMaze基准包含三个关键设置:社会推理游戏、日常生活互动和数字社区平台。每个设置下包含多个任务,共计六个任务。这些任务的设计旨在模拟真实世界的社会场景,并涵盖不同的社会推理挑战。数据集的构建过程包括自动化生成和人工验证,以确保数据质量。

关键创新:SocialMaze的关键创新在于其对社会推理核心挑战的系统性整合,包括深度推理(需要多步推理才能得出结论)、动态交互(需要根据交互历史调整推理)和信息不确定性(需要处理不完整或模糊的信息)。此外,该基准涵盖了更广泛的社会场景,更贴近实际应用。

关键设计:SocialMaze的任务设计考虑了多种因素,例如任务的复杂性、推理的深度、交互的频率和不确定性的程度。为了确保数据质量,论文采用了自动化生成和人工验证相结合的方法。具体来说,首先使用规则或模板生成候选数据,然后由人工专家进行审核和修改,以确保数据的准确性和一致性。没有提及具体的参数设置、损失函数或网络结构,因为该论文主要关注基准的构建而非特定模型的训练。

📊 实验亮点

实验结果表明,不同模型在处理动态交互和整合时间演变信息的能力方面存在显著差异。具有强大思维链推理的模型在需要深度推理的任务中表现更好。模型推理在不确定性下会显著降低。针对推理示例进行微调可以显著提高模型在复杂社会场景中的性能。

🎯 应用场景

SocialMaze基准的潜在应用领域包括在线社区管理、媒体内容分析、社交机器人开发和人机交互系统设计。通过使用该基准评估和改进LLM的社会推理能力,可以提高这些应用在处理复杂社会场景时的准确性和可靠性,从而提升用户体验和促进社会和谐。

📄 摘要(原文)

Large language models (LLMs) are increasingly applied to socially grounded tasks, such as online community moderation, media content analysis, and social reasoning games. Success in these contexts depends on a model's social reasoning ability - the capacity to interpret social contexts, infer others' mental states, and assess the truthfulness of presented information. However, there is currently no systematic evaluation framework that comprehensively assesses the social reasoning capabilities of LLMs. Existing efforts often oversimplify real-world scenarios and consist of tasks that are too basic to challenge advanced models. To address this gap, we introduce SocialMaze, a new benchmark specifically designed to evaluate social reasoning. SocialMaze systematically incorporates three core challenges: deep reasoning, dynamic interaction, and information uncertainty. It provides six diverse tasks across three key settings: social reasoning games, daily-life interactions, and digital community platforms. Both automated and human validation are used to ensure data quality. Our evaluation reveals several key insights: models vary substantially in their ability to handle dynamic interactions and integrate temporally evolving information; models with strong chain-of-thought reasoning perform better on tasks requiring deeper inference beyond surface-level cues; and model reasoning degrades significantly under uncertainty. Furthermore, we show that targeted fine-tuning on curated reasoning examples can greatly improve model performance in complex social scenarios. The dataset is publicly available at: https://huggingface.co/datasets/MBZUAI/SocialMaze