SocialGrid: A Benchmark for Planning and Social Reasoning in Embodied Multi-Agent Systems
作者: Hikaru Shindo, Hanzhao Lin, Lukas Helff, Patrick Schramowski, Kristian Kersting
分类: cs.AI, cs.LG, cs.MA
发布日期: 2026-04-17
备注: Preprint
💡 一句话要点
SocialGrid:用于具身多智能体系统中规划与社会推理的基准测试环境
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身智能 多智能体系统 社会推理 基准测试 大型语言模型 规划 任务执行 欺骗检测
📋 核心要点
- 现有LLM在具身多智能体环境中进行社会推理的能力不足,面临规划、任务执行和社会推理等多重挑战。
- SocialGrid环境通过模拟“Among Us”游戏,提供了一个评估LLM智能体社会推理能力的平台,并可选择性地提供规划预言机。
- 实验表明,即使是强大的LLM在SocialGrid中也表现出规划和任务完成方面的不足,且难以有效识别欺骗行为。
📝 摘要(中文)
随着大型语言模型(LLMs)从文本处理器转型为自主智能体,评估它们在具身多智能体环境中的社会推理能力至关重要。我们提出了SocialGrid,一个受“Among Us”启发的具身多智能体环境,用于评估LLM智能体在规划、任务执行和社会推理方面的能力。评估结果表明,即使是最强大的开源模型(GPT-OSS-120B)在任务完成和规划方面的准确率也低于60%,智能体经常陷入重复行为或无法导航基本障碍。由于糟糕的导航会混淆对社会智能的评估,SocialGrid提供了一个可选的规划预言机,以将社会推理与规划缺陷隔离开来。虽然规划辅助提高了任务完成度,但社会推理仍然是一个瓶颈:无论规模如何,智能体都无法检测到欺骗,其准确率接近随机水平,并且依赖于肤浅的启发式方法,而不是积累行为证据。SocialGrid提供自动故障分析和细粒度指标,使开发人员能够诊断和改进他们的智能体。我们还使用对抗联赛中的Elo评分建立了一个有竞争力的排行榜。
🔬 方法详解
问题定义:现有的大型语言模型在具身多智能体环境中进行社会推理时,面临着规划能力不足、任务执行效率低下以及难以进行复杂社会推理的挑战。尤其是在需要欺骗检测等高级社会交互的场景下,现有方法往往依赖于简单的启发式规则,而无法有效地从行为证据中进行推理。导航能力不足也会干扰对社会智能的评估。
核心思路:SocialGrid的核心思路是构建一个受“Among Us”游戏启发的具身多智能体环境,该环境能够对LLM智能体的规划、任务执行和社会推理能力进行综合评估。通过提供细粒度的指标和自动故障分析,帮助开发者诊断和改进智能体。同时,提供可选的规划预言机,以隔离社会推理能力,避免因规划能力不足而影响评估结果。
技术框架:SocialGrid环境包含多个智能体,每个智能体都可以在环境中移动、执行任务和进行交互。环境提供了一套API,允许LLM智能体感知环境状态、执行动作和进行通信。SocialGrid还提供了一个自动评估系统,可以根据智能体的行为和任务完成情况,计算出各种指标,例如任务完成率、规划成功率和社会推理准确率。此外,SocialGrid还包含一个对抗联赛系统,通过Elo评分对智能体的性能进行排名。
关键创新:SocialGrid的关键创新在于其提供了一个专门用于评估具身多智能体系统中社会推理能力的基准测试环境。它通过模拟“Among Us”游戏,创造了一个需要复杂社会交互的场景,并提供了细粒度的评估指标和自动故障分析工具。可选的规划预言机可以隔离社会推理能力,从而更准确地评估智能体的社会智能。
关键设计:SocialGrid的关键设计包括:1) 基于网格的环境表示,简化了导航和规划;2) 可配置的任务和角色分配,允许灵活地测试不同类型的社会推理能力;3) 细粒度的评估指标,例如任务完成率、规划成功率、欺骗检测准确率等;4) 自动故障分析工具,可以帮助开发者识别智能体行为中的问题;5) 对抗联赛系统,通过Elo评分对智能体的性能进行排名。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是GPT-OSS-120B这样的大型语言模型在SocialGrid环境中也表现出规划和任务完成方面的不足,任务完成率低于60%。更重要的是,智能体在欺骗检测方面的准确率接近随机水平,表明其社会推理能力仍然非常有限。规划预言机的引入提高了任务完成率,但并没有显著改善社会推理能力。
🎯 应用场景
SocialGrid可用于评估和改进各种具身多智能体系统中的社会推理能力,例如协作机器人、自动驾驶汽车和虚拟助手。通过提供一个标准化的评估平台,SocialGrid可以促进该领域的研究进展,并帮助开发出更智能、更可靠的智能体。
📄 摘要(原文)
As Large Language Models (LLMs) transition from text processors to autonomous agents, evaluating their social reasoning in embodied multi-agent settings becomes critical. We introduce SocialGrid, an embodied multi-agent environment inspired by Among Us that evaluates LLM agents on planning, task execution, and social reasoning. Our evaluations reveal that even the strongest open model (GPT-OSS-120B) achieves below 60% accuracy in task completion and planning, with agents getting stuck in repetitive behaviors or failing to navigate basic obstacles. Since poor navigation confounds evaluation of social intelligence, SocialGrid offers an optional Planning Oracle to isolate social reasoning from planning deficits. While planning assistance improves task completion, social reasoning remains a bottleneck: agents fail to detect deception at near-random chance regardless of scale, relying on shallow heuristics rather than accumulating behavioral evidence. SocialGrid provides automatic failure analysis and fine-grained metrics, enabling developers to diagnose and improve their agents. We also establish a competitive leaderboard using Elo ratings from adversarial league play.