LLMs achieve adult human performance on higher-order theory of mind tasks

📄 arXiv: 2405.18870v2 📥 PDF

作者: Winnie Street, John Oliver Siy, Geoff Keeling, Adrien Baranes, Benjamin Barnett, Michael McKibben, Tatenda Kanyere, Alison Lentz, Blaise Aguera y Arcas, Robin I. M. Dunbar

分类: cs.AI, cs.CL, cs.HC

发布日期: 2024-05-29 (更新: 2024-05-31)


💡 一句话要点

提出手写测试套件以评估LLMs的高阶心智理论能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 心智理论 推理能力 人机交互 测试工具 成人基准 模型微调

📋 核心要点

  1. 现有的LLMs在高阶心智理论任务中的表现尚未得到充分评估,缺乏有效的测试标准。
  2. 本文提出了一套手写的多阶心智理论问答测试工具,以系统性地评估LLMs的推理能力。
  3. 实验结果显示,GPT-4和Flan-PaLM在ToM任务上表现出色,尤其是GPT-4在第六阶推理中超越了成人水平。

📝 摘要(中文)

本文研究了大型语言模型(LLMs)在高阶心智理论(ToM)任务中的表现,特别是人类在递归推理多种心理和情感状态的能力。研究引入了一套手写测试工具——多阶心智理论问答,并将五种LLMs的表现与新收集的成人基准进行比较。结果表明,GPT-4和Flan-PaLM在ToM任务上达到了成人水平,且GPT-4在第六阶推理上超越了成人表现。这些发现表明模型规模与微调之间的相互作用对ToM能力的实现至关重要,表现最佳的LLMs展现了普遍的ToM能力。高阶ToM在多种人类合作与竞争行为中的重要性使得这些发现对用户导向的LLM应用具有重要意义。

🔬 方法详解

问题定义:本文旨在评估大型语言模型在高阶心智理论任务中的能力,现有方法缺乏有效的评估工具,无法准确反映模型的推理能力。

核心思路:通过引入一套手写的多阶心智理论问答测试工具,比较不同LLMs的表现与成人基准,探讨模型规模与微调对ToM能力的影响。

技术框架:研究首先设计了多阶心智理论问答测试套件,随后将五种LLMs的表现与新收集的成人基准进行比较,分析其推理能力的差异。

关键创新:本研究的创新在于提出了一种系统化的评估工具,能够有效测量LLMs在高阶心智理论任务中的表现,填补了现有评估方法的空白。

关键设计:测试套件包括多种不同阶数的推理问题,LLMs的表现通过准确率进行评估,特别关注模型在高阶推理中的能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,GPT-4和Flan-PaLM在高阶心智理论任务中达到了成人水平,尤其是GPT-4在第六阶推理中表现超越成人,展现出显著的推理能力提升。这一发现为LLMs在复杂社交推理中的应用提供了新的视角。

🎯 应用场景

该研究的潜在应用领域包括人机交互、教育技术和心理健康评估等。通过提升LLMs在高阶心智理论任务中的表现,可以改善用户体验,增强模型在复杂社交场景中的适应能力,推动智能助手和聊天机器人的发展。

📄 摘要(原文)

This paper examines the extent to which large language models (LLMs) have developed higher-order theory of mind (ToM); the human ability to reason about multiple mental and emotional states in a recursive manner (e.g. I think that you believe that she knows). This paper builds on prior work by introducing a handwritten test suite -- Multi-Order Theory of Mind Q&A -- and using it to compare the performance of five LLMs to a newly gathered adult human benchmark. We find that GPT-4 and Flan-PaLM reach adult-level and near adult-level performance on ToM tasks overall, and that GPT-4 exceeds adult performance on 6th order inferences. Our results suggest that there is an interplay between model size and finetuning for the realisation of ToM abilities, and that the best-performing LLMs have developed a generalised capacity for ToM. Given the role that higher-order ToM plays in a wide range of cooperative and competitive human behaviours, these findings have significant implications for user-facing LLM applications.