LLMs achieve adult human performance on higher-order theory of mind tasks

作者: Winnie Street, John Oliver Siy, Geoff Keeling, Adrien Baranes, Benjamin Barnett, Michael McKibben, Tatenda Kanyere, Alison Lentz, Blaise Aguera y Arcas, Robin I. M. Dunbar

分类: cs.AI, cs.CL, cs.HC

发布日期: 2024-05-29 (更新: 2024-05-31)

💡 一句话要点

提出手写测试套件以评估LLMs的高阶心智理论能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 心智理论 推理能力 人机交互 测试工具 成人基准 模型微调

📋 核心要点

现有的LLMs在高阶心智理论任务中的表现尚未得到充分评估，缺乏有效的测试标准。
本文提出了一套手写的多阶心智理论问答测试工具，以系统性地评估LLMs的推理能力。
实验结果显示，GPT-4和Flan-PaLM在ToM任务上表现出色，尤其是GPT-4在第六阶推理中超越了成人水平。

📝 摘要（中文）

本文研究了大型语言模型（LLMs）在高阶心智理论（ToM）任务中的表现，特别是人类在递归推理多种心理和情感状态的能力。研究引入了一套手写测试工具——多阶心智理论问答，并将五种LLMs的表现与新收集的成人基准进行比较。结果表明，GPT-4和Flan-PaLM在ToM任务上达到了成人水平，且GPT-4在第六阶推理上超越了成人表现。这些发现表明模型规模与微调之间的相互作用对ToM能力的实现至关重要，表现最佳的LLMs展现了普遍的ToM能力。高阶ToM在多种人类合作与竞争行为中的重要性使得这些发现对用户导向的LLM应用具有重要意义。

🔬 方法详解

问题定义：本文旨在评估大型语言模型在高阶心智理论任务中的能力，现有方法缺乏有效的评估工具，无法准确反映模型的推理能力。

核心思路：通过引入一套手写的多阶心智理论问答测试工具，比较不同LLMs的表现与成人基准，探讨模型规模与微调对ToM能力的影响。

技术框架：研究首先设计了多阶心智理论问答测试套件，随后将五种LLMs的表现与新收集的成人基准进行比较，分析其推理能力的差异。

关键创新：本研究的创新在于提出了一种系统化的评估工具，能够有效测量LLMs在高阶心智理论任务中的表现，填补了现有评估方法的空白。

关键设计：测试套件包括多种不同阶数的推理问题，LLMs的表现通过准确率进行评估，特别关注模型在高阶推理中的能力。

🖼️ 关键图片

📊 实验亮点

实验结果显示，GPT-4和Flan-PaLM在高阶心智理论任务中达到了成人水平，尤其是GPT-4在第六阶推理中表现超越成人，展现出显著的推理能力提升。这一发现为LLMs在复杂社交推理中的应用提供了新的视角。

🎯 应用场景

该研究的潜在应用领域包括人机交互、教育技术和心理健康评估等。通过提升LLMs在高阶心智理论任务中的表现，可以改善用户体验，增强模型在复杂社交场景中的适应能力，推动智能助手和聊天机器人的发展。

📄 摘要（原文）

This paper examines the extent to which large language models (LLMs) have developed higher-order theory of mind (ToM); the human ability to reason about multiple mental and emotional states in a recursive manner (e.g. I think that you believe that she knows). This paper builds on prior work by introducing a handwritten test suite -- Multi-Order Theory of Mind Q&A -- and using it to compare the performance of five LLMs to a newly gathered adult human benchmark. We find that GPT-4 and Flan-PaLM reach adult-level and near adult-level performance on ToM tasks overall, and that GPT-4 exceeds adult performance on 6th order inferences. Our results suggest that there is an interplay between model size and finetuning for the realisation of ToM abilities, and that the best-performing LLMs have developed a generalised capacity for ToM. Given the role that higher-order ToM plays in a wide range of cooperative and competitive human behaviours, these findings have significant implications for user-facing LLM applications.

LLMs achieve adult human performance on higher-order theory of mind tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理