CoMMET: To What Extent Can LLMs Perform Theory of Mind Tasks?

📄 arXiv: 2603.11915v1 📥 PDF

作者: Ruirui Chen, Weifeng Jiang, Chengwei Qin, Cheston Tan

分类: cs.CL

发布日期: 2026-03-12


💡 一句话要点

提出CoMMET多模态基准,评估LLM在心理理论任务中的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心理理论 大型语言模型 多模态学习 对话系统 社会智能

📋 核心要点

  1. 现有ToM评估基准主要依赖文本输入,且关注点狭隘,无法全面评估LLM的社会推理能力。
  2. 论文提出CoMMET多模态基准数据集,覆盖更广泛的心理状态,并引入多轮对话测试。
  3. 通过对不同LLM的评估,分析了模型的优势与不足,为未来改进方向提供了参考。

📝 摘要(中文)

心理理论(ToM)是人类社会智能的基石,它指的是推断自己和他人心理状态的能力。随着大型语言模型(LLM)在现实应用中日益普及,验证它们在这种社会推理层面的能力对于有效和自然的交互至关重要。然而,现有的LLM中ToM评估基准存在局限性;大多数仅依赖文本输入,并且狭隘地关注与信念相关的任务。在本文中,我们提出了一个新的多模态基准数据集CoMMET,这是一个受心理理论手册任务启发的综合心理状态和道德评估任务。CoMMET通过覆盖更广泛的心理状态和引入多轮测试来扩展评估范围。据我们所知,这是第一个在多轮对话环境中评估ToM的多模态数据集。通过对不同系列和规模的LLM进行全面评估,我们分析了当前模型的优势和局限性,并确定了未来改进的方向。我们的工作提供了对现代LLM社会认知能力的更深入理解。

🔬 方法详解

问题定义:论文旨在解决现有大型语言模型(LLMs)在心理理论(ToM)任务评估中存在的局限性问题。现有基准主要依赖文本输入,且评估范围狭窄,无法全面衡量LLMs在理解和推理复杂社会情境中的能力。现有方法的痛点在于缺乏能够模拟真实世界交互的多模态、多轮对话评估数据集。

核心思路:论文的核心思路是构建一个更全面、更贴近真实场景的ToM评估基准,即CoMMET。CoMMET通过引入多模态输入(图像和文本)和多轮对话交互,扩展了评估的范围,使其能够覆盖更广泛的心理状态和道德推理。这种设计旨在更准确地反映LLMs在复杂社会情境中的推理能力。

技术框架:CoMMET的整体框架围绕多模态、多轮对话的ToM评估展开。它包含以下主要模块:1) 数据集构建:收集和标注包含图像和文本描述的ToM场景,并设计多轮对话交互流程。2) 模型评估:将LLMs应用于CoMMET数据集,通过多轮对话完成ToM相关任务。3) 性能分析:分析LLMs在不同类型的ToM任务上的表现,识别其优势和局限性。

关键创新:CoMMET的关键创新在于其多模态和多轮对话的特性。与以往仅依赖文本输入的ToM基准不同,CoMMET引入了图像信息,使评估更贴近真实场景。此外,多轮对话的设计允许更深入地评估LLMs在动态交互中理解和推理他人心理状态的能力。

关键设计:CoMMET数据集的设计灵感来源于心理理论手册任务,但进行了扩展和改进。每个场景包含图像和文本描述,并设计了多轮对话交互流程,其中包含一系列问题,旨在评估LLMs对不同心理状态(如信念、意图、情感等)的理解和推理能力。具体参数设置和损失函数取决于所评估的LLM模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过在CoMMET数据集上对不同系列和规模的LLM进行评估,揭示了当前模型在ToM任务上的优势和局限性。实验结果表明,部分LLM在某些类型的ToM任务上表现良好,但在处理更复杂的社会情境时仍存在挑战。CoMMET数据集为未来研究提供了一个有价值的基准,可以用于评估和改进LLM的社会认知能力。

🎯 应用场景

该研究成果可应用于开发更具社会智能的AI系统,例如更自然的对话机器人、更有效的教育工具和更可靠的辅助决策系统。通过提升LLM的心理理论能力,可以改善人机交互体验,并促进AI在社会领域的更广泛应用。未来的研究可以进一步探索如何利用CoMMET数据集来训练和优化LLM,使其能够更好地理解和应对复杂的社会情境。

📄 摘要(原文)

Theory of Mind (ToM)-the ability to reason about the mental states of oneself and others-is a cornerstone of human social intelligence. As Large Language Models (LLMs) become ubiquitous in real-world applications, validating their capacity for this level of social reasoning is essential for effective and natural interactions. However, existing benchmarks for assessing ToM in LLMs are limited; most rely solely on text inputs and focus narrowly on belief-related tasks. In this paper, we propose a new multimodal benchmark dataset, CoMMET, a Comprehensive Mental states and Moral Evaluation Task inspired by the Theory of Mind Booklet Task. CoMMET expands the scope of evaluation by covering a broader range of mental states and introducing multi-turn testing. To the best of our knowledge, this is the first multimodal dataset to evaluate ToM in a multi-turn conversational setting. Through a comprehensive assessment of LLMs across different families and sizes, we analyze the strengths and limitations of current models and identify directions for future improvement. Our work offers a deeper understanding of the social cognitive capabilities of modern LLMs.