ToM-SSI: Evaluating Theory of Mind in Situated Social Interactions

📄 arXiv: 2509.05066v2 📥 PDF

作者: Matteo Bortoletto, Constantin Ruhdorfer, Andreas Bulling

分类: cs.CL, cs.AI

发布日期: 2025-09-05 (更新: 2025-09-16)

备注: EMNLP 2025 (Main)


💡 一句话要点

提出ToM-SSI基准,用于评估具身社交互动中智能体的心理理论能力

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心智理论 社交互动 多智能体 具身智能 基准测试

📋 核心要点

  1. 现有心智理论基准过于简单,无法充分评估智能体在复杂社交环境中的推理能力。
  2. ToM-SSI基准通过多智能体互动、多模态输入和合作-阻碍场景,更全面地评估心智理论。
  3. 实验表明,现有模型在ToM-SSI基准上的表现不佳,揭示了模型在复杂社交推理方面的不足。

📝 摘要(中文)

现有心智理论(ToM)基准主要依赖于Sally-Anne测试的变体,对ToM的理解有限,忽略了人类社交互动的复杂性。为了解决这个问题,我们提出了ToM-SSI:一个新的基准,专门用于测试在具有丰富社交互动和空间动态的环境中的ToM能力。现有的ToM基准仅限于文本或双人互动,而ToM-SSI是多模态的,包含最多四个智能体的群体互动,这些智能体在具身环境中进行交流和移动。这种独特的设计使我们能够首次研究混合的合作-阻碍设置,并并行推理多个智能体的心理状态,从而比现有基准更广泛地捕捉社交认知。我们的评估表明,当前模型的性能仍然非常有限,尤其是在这些新任务中,突出了未来研究的关键差距。

🔬 方法详解

问题定义:现有心智理论(ToM)基准,如Sally-Anne测试,主要关注简单的二元互动和文本输入,无法有效评估智能体在复杂、动态的社交环境中的ToM能力。这些基准忽略了多智能体互动、空间关系以及合作与竞争等因素,导致模型难以泛化到真实世界的社交场景。现有方法的痛点在于缺乏对复杂社交互动中智能体心理状态进行建模和推理的能力。

核心思路:ToM-SSI的核心思路是通过构建一个包含多智能体、多模态输入和复杂社交互动的具身环境,来更全面地评估智能体的ToM能力。该基准模拟了真实世界中智能体之间的合作、竞争和信息传递等行为,要求智能体能够理解其他智能体的目标、意图和信念,并根据这些信息做出相应的决策。通过这种方式,ToM-SSI能够更准确地反映智能体在复杂社交环境中的ToM水平。

技术框架:ToM-SSI基准包含以下主要组成部分:1) 具身环境:一个模拟真实世界的虚拟环境,智能体可以在其中移动、交互和通信。2) 多智能体:环境中包含多个智能体,每个智能体都有自己的目标、意图和信念。3) 多模态输入:智能体可以通过多种模态获取信息,包括视觉、听觉和文本。4) 社交互动:智能体之间可以进行各种社交互动,包括合作、竞争和信息传递。5) 评估指标:用于评估智能体ToM能力的指标,例如预测其他智能体行为的准确率。

关键创新:ToM-SSI的关键创新在于其对复杂社交互动的建模能力。与现有基准相比,ToM-SSI能够模拟多智能体之间的合作、竞争和信息传递等行为,并要求智能体能够理解其他智能体的目标、意图和信念。此外,ToM-SSI还采用了多模态输入,使智能体能够通过多种模态获取信息,从而更全面地了解环境和智能体的状态。这些创新使得ToM-SSI能够更准确地评估智能体在复杂社交环境中的ToM能力。

关键设计:ToM-SSI的关键设计包括:1) 智能体的数量:环境中包含2-4个智能体,以模拟不同规模的社交互动。2) 智能体的目标:每个智能体都有自己的目标,这些目标可能相互冲突或一致,从而产生合作和竞争。3) 智能体的通信方式:智能体可以通过文本或语音进行通信,传递信息和表达意图。4) 评估指标:采用多种评估指标,包括预测其他智能体行为的准确率、理解其他智能体意图的准确率等。

📊 实验亮点

实验结果表明,现有模型在ToM-SSI基准上的表现远低于人类水平,尤其是在涉及合作-阻碍场景和多智能体推理的任务中。例如,在预测其他智能体行为的准确率方面,现有模型的表现仅为50%左右,而人类可以达到90%以上。这表明现有模型在复杂社交推理方面存在显著不足,需要进一步的研究和改进。

🎯 应用场景

ToM-SSI基准的潜在应用领域包括社交机器人、自动驾驶和虚拟助手等。通过提高智能体在复杂社交环境中的ToM能力,可以使它们更好地理解人类的需求和意图,从而更有效地与人类进行交互。例如,社交机器人可以利用ToM能力来理解用户的意图,并提供个性化的服务;自动驾驶汽车可以利用ToM能力来预测其他车辆和行人的行为,从而提高安全性;虚拟助手可以利用ToM能力来理解用户的需求,并提供更智能的建议。

📄 摘要(原文)

Most existing Theory of Mind (ToM) benchmarks for foundation models rely on variations of the Sally-Anne test, offering only a very limited perspective on ToM and neglecting the complexity of human social interactions. To address this gap, we propose ToM-SSI: a new benchmark specifically designed to test ToM capabilities in environments rich with social interactions and spatial dynamics. While current ToM benchmarks are limited to text-only or dyadic interactions, ToM-SSI is multimodal and includes group interactions of up to four agents that communicate and move in situated environments. This unique design allows us to study, for the first time, mixed cooperative-obstructive settings and reasoning about multiple agents' mental state in parallel, thus capturing a wider range of social cognition than existing benchmarks. Our evaluations reveal that the current models' performance is still severely limited, especially in these new tasks, highlighting critical gaps for future research.