ToM-SSI: Evaluating Theory of Mind in Situated Social Interactions

📄 arXiv: 2509.05066v2 📥 PDF

作者: Matteo Bortoletto, Constantin Ruhdorfer, Andreas Bulling

分类: cs.CL, cs.AI

发布日期: 2025-09-05 (更新: 2025-09-16)

备注: EMNLP 2025 (Main)


💡 一句话要点

提出ToM-SSI基准,用于评估具身社交互动中智能体的心理理论能力。

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心理理论 社交互动 具身智能 多智能体系统 基准测试

📋 核心要点

  1. 现有ToM基准主要依赖Sally-Anne测试的变体,无法充分评估复杂社交互动中的心理理论能力。
  2. ToM-SSI基准通过构建包含多智能体、多模态交互的具身环境,更真实地模拟了人类社交场景。
  3. 实验表明,现有模型在ToM-SSI基准上的表现不佳,揭示了模型在复杂社交推理方面的不足。

📝 摘要(中文)

为了弥补现有心理理论(ToM)基准的不足,特别是它们对人类社交互动复杂性的忽视,我们提出了ToM-SSI:一个专门用于测试智能体在富含社交互动和空间动态的环境中ToM能力的新基准。现有的ToM基准通常仅限于文本或双人互动,而ToM-SSI是多模态的,包含最多四个智能体的群体互动,这些智能体在具身环境中进行交流和移动。这种独特的设计使我们能够首次研究混合的合作-阻碍场景,并并行推理多个智能体的心理状态,从而比现有基准更全面地捕捉社交认知。评估结果表明,当前模型的性能仍然非常有限,尤其是在这些新任务中,这突显了未来研究的关键差距。

🔬 方法详解

问题定义:现有心理理论(ToM)基准,如Sally-Anne测试,过于简单,无法捕捉真实世界社交互动的复杂性。它们通常局限于文本或双人互动,忽略了多智能体协作、竞争以及环境因素的影响。因此,现有方法难以有效评估智能体在复杂社交环境中的ToM能力。

核心思路:ToM-SSI的核心思路是构建一个更具挑战性和真实感的社交互动环境,该环境包含多个智能体,支持多模态交流(例如,语言和动作),并且智能体可以在环境中移动和交互。通过在这种复杂环境中评估智能体的ToM能力,可以更全面地了解其社交推理能力。

技术框架:ToM-SSI基准包含以下主要组成部分:1)一个具身环境,智能体可以在其中移动和交互;2)多个智能体,每个智能体都有自己的目标和行为策略;3)一系列社交互动场景,这些场景涉及合作、竞争和欺骗等多种社交行为;4)一套评估指标,用于衡量智能体的ToM能力。智能体需要观察其他智能体的行为,推理他们的意图和信念,并做出相应的决策。

关键创新:ToM-SSI的关键创新在于其对复杂社交互动环境的建模。与现有基准相比,ToM-SSI考虑了多智能体互动、多模态交流和环境因素的影响,从而更真实地模拟了人类社交场景。此外,ToM-SSI还引入了混合的合作-阻碍场景,这使得可以评估智能体在更复杂的社交环境中的ToM能力。

关键设计:ToM-SSI的具体实现细节(例如,环境的物理特性、智能体的行为策略、评估指标)在论文中没有详细描述,属于未知信息。但是,可以推断,关键设计包括:合理的场景设计,确保场景既具有挑战性又具有可解性;有效的多模态数据处理方法,能够从语言、动作等多种模态中提取信息;以及鲁棒的评估指标,能够准确衡量智能体的ToM能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文评估了现有模型在ToM-SSI基准上的性能,结果表明,当前模型的表现仍然非常有限,尤其是在混合的合作-阻碍场景中。这表明,现有模型在复杂社交推理方面存在显著不足,需要进一步的研究和改进。具体的性能数据和对比基线在论文中没有明确给出,属于未知信息。

🎯 应用场景

ToM-SSI基准的潜在应用领域包括:社交机器人、虚拟助手、自动驾驶等。通过提高智能体在复杂社交环境中的ToM能力,可以使它们更好地理解人类意图、预测人类行为,并与人类进行更自然、更有效的互动。此外,该基准还可以用于研究人类社交认知,帮助我们更好地理解人类如何进行社交推理。

📄 摘要(原文)

Most existing Theory of Mind (ToM) benchmarks for foundation models rely on variations of the Sally-Anne test, offering only a very limited perspective on ToM and neglecting the complexity of human social interactions. To address this gap, we propose ToM-SSI: a new benchmark specifically designed to test ToM capabilities in environments rich with social interactions and spatial dynamics. While current ToM benchmarks are limited to text-only or dyadic interactions, ToM-SSI is multimodal and includes group interactions of up to four agents that communicate and move in situated environments. This unique design allows us to study, for the first time, mixed cooperative-obstructive settings and reasoning about multiple agents' mental state in parallel, thus capturing a wider range of social cognition than existing benchmarks. Our evaluations reveal that the current models' performance is still severely limited, especially in these new tasks, highlighting critical gaps for future research.