A Systematic Review on the Evaluation of Large Language Models in Theory of Mind Tasks

📄 arXiv: 2502.08796v1 📥 PDF

作者: Karahan Sarıtaş, Kıvanç Tezören, Yavuz Durmazkeser

分类: cs.CL, cs.CY, cs.HC

发布日期: 2025-02-12


💡 一句话要点

系统性评测大型语言模型在心理理论任务中的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 心理理论 认知科学 系统性综述 评估基准

📋 核心要点

  1. 现有方法难以系统性地评估大型语言模型在心理理论任务中的能力,缺乏统一的评估框架。
  2. 该综述通过认知科学的分类方法,对现有ToM任务和评估基准进行系统性分类和分析。
  3. 研究结果表明,LLM在ToM任务中展现出一定能力,但与人类认知能力相比仍存在显著差距。

📝 摘要(中文)

近年来,评估大型语言模型(LLM)的心理理论(ToM)能力受到了研究界的广泛关注。随着该领域的快速发展,各种方法和技术变得越来越复杂。本系统性综述总结了当前评估LLM执行ToM任务能力的研究成果,ToM是人类认知的一个重要方面,涉及将心理状态归因于自己和他人。尽管取得了显著进展,但LLM在ToM方面的能力仍然是一个有争议的问题。通过认知科学的分类方法对基准和任务进行分类,本综述批判性地考察了评估技术、提示策略以及LLM在复制类人心理状态推理方面的内在局限性。文献中反复出现的主题表明,虽然LLM在ToM任务中表现出新兴的能力,但在模拟人类认知能力方面仍然存在显著差距。

🔬 方法详解

问题定义:论文旨在解决如何系统性地评估大型语言模型(LLM)在心理理论(ToM)任务中的表现。现有方法缺乏统一的评估框架,难以全面了解LLM在ToM方面的能力。此外,如何设计有效的提示策略以及如何克服LLM在模拟人类认知方面的局限性也是需要解决的问题。

核心思路:论文的核心思路是通过系统性地回顾和分析现有研究,对ToM任务和评估基准进行分类,从而构建一个更全面的评估框架。该框架基于认知科学的理论,能够更准确地评估LLM在ToM方面的能力,并揭示其在模拟人类认知方面的局限性。

技术框架:该综述的技术框架主要包括以下几个阶段:1) 文献检索:系统性地搜索和筛选相关研究论文。2) 分类体系构建:基于认知科学理论,构建ToM任务和评估基准的分类体系。3) 评估技术分析:分析现有评估技术的优缺点,并提出改进建议。4) 提示策略研究:研究不同提示策略对LLM性能的影响。5) 局限性分析:分析LLM在模拟人类认知方面的局限性。

关键创新:该综述的关键创新在于其系统性的评估框架,该框架基于认知科学理论,能够更全面、更准确地评估LLM在ToM方面的能力。此外,该综述还深入分析了现有评估技术的优缺点,并提出了改进建议,为未来的研究提供了指导。与现有方法相比,该综述更加注重对LLM在模拟人类认知方面的局限性进行分析。

关键设计:论文的关键设计在于其分类体系,该体系基于认知科学的理论,将ToM任务和评估基准分为不同的类别,例如一级信念、二级信念、错误信念等。此外,论文还研究了不同提示策略对LLM性能的影响,例如使用不同的提示词、不同的提示格式等。论文还对LLM的架构和训练数据进行了分析,以了解其在ToM方面的能力。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

该综述总结了当前评估LLM在ToM任务中表现的各种方法,并基于认知科学构建了分类体系。研究揭示了LLM在ToM任务中展现出新兴能力,但与人类认知能力相比仍存在显著差距。该综述还指出了LLM在模拟人类认知方面的局限性,为未来的研究提供了方向。

🎯 应用场景

该研究成果可应用于开发更智能、更具同理心的人工智能系统,例如在人机交互、心理健康咨询、教育等领域。通过更准确地评估LLM的ToM能力,可以更好地了解其局限性,并开发更有效的训练方法,从而提高LLM在这些领域的应用效果。此外,该研究还可以促进认知科学和人工智能领域的交叉研究。

📄 摘要(原文)

In recent years, evaluating the Theory of Mind (ToM) capabilities of large language models (LLMs) has received significant attention within the research community. As the field rapidly evolves, navigating the diverse approaches and methodologies has become increasingly complex. This systematic review synthesizes current efforts to assess LLMs' ability to perform ToM tasks, an essential aspect of human cognition involving the attribution of mental states to oneself and others. Despite notable advancements, the proficiency of LLMs in ToM remains a contentious issue. By categorizing benchmarks and tasks through a taxonomy rooted in cognitive science, this review critically examines evaluation techniques, prompting strategies, and the inherent limitations of LLMs in replicating human-like mental state reasoning. A recurring theme in the literature reveals that while LLMs demonstrate emerging competence in ToM tasks, significant gaps persist in their emulation of human cognitive abilities.