Strong Memory, Weak Control: An Empirical Study of Executive Functioning in LLMs

📄 arXiv: 2504.02789v2 📥 PDF

作者: Karin de Langis, Jong Inn Park, Bin Hu, Khanh Chi Le, Andreas Schramm, Michael C. Mensink, Andrew Elfenbein, Dongyeop Kang

分类: cs.CL

发布日期: 2025-04-03 (更新: 2025-11-26)


💡 一句话要点

研究表明LLM工作记忆能力强,但执行功能和问题解决能力不足

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 工作记忆 执行功能 认知能力 注意力控制

📋 核心要点

  1. 现有研究缺乏对LLM执行功能的深入评估,特别是工作记忆与其他认知能力之间的关系。
  2. 该研究通过经典工作记忆任务评估LLM的容量,并分析其与执行功能和问题解决能力的相关性。
  3. 实验表明LLM拥有超出人类的工作记忆容量,但执行功能和问题解决能力并未相应提升。

📝 摘要(中文)

工作记忆,即在头脑中保持和操作信息的能力,是人类智能和执行功能的重要组成部分。它与各种认知任务的表现相关,包括流体智力,后者涵盖推理和问题解决。本文使用一套全面的经典工作记忆任务来评估大型语言模型(LLM)的工作记忆容量。研究发现,在大多数情况下,LLM超过了人类的常模分数。然而,工作记忆容量的增加并没有转化为在其他执行功能任务或问题解决基准测试中更高的性能。这些结果表明,LLM可能在注意力控制和认知灵活性方面存在缺陷,导致难以抑制自动反应和适应不断变化的信息。研究结果表明,目前的推理模型在弥补这些缺陷方面表现参差不齐。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)的执行功能,特别是工作记忆能力。现有方法主要关注LLM在语言生成和理解方面的能力,而忽略了其在认知层面的表现。现有研究缺乏对LLM工作记忆容量的系统评估,以及工作记忆与其他执行功能(如注意力控制和认知灵活性)之间关系的深入理解。

核心思路:论文的核心思路是通过借鉴认知科学中经典的工作记忆任务,来评估LLM的工作记忆容量。同时,通过比较LLM在工作记忆任务和执行功能/问题解决任务上的表现,分析其工作记忆能力与其他认知能力之间的关系。这种方法能够更全面地了解LLM的认知能力,并揭示其潜在的缺陷。

技术框架:该研究的技术框架主要包括以下几个部分:1) 选择一系列经典的工作记忆任务,例如N-back任务、数字广度任务等;2) 将这些任务转化为LLM可以理解和执行的形式,例如通过自然语言提示;3) 使用不同的LLM模型进行实验,并记录其在各个任务上的表现;4) 分析实验结果,比较LLM在不同任务上的表现,并与人类的常模数据进行对比;5) 使用统计方法分析工作记忆容量与执行功能/问题解决能力之间的相关性。

关键创新:该研究的关键创新在于将认知科学中的经典工作记忆任务应用于评估LLM的认知能力。这种方法为评估LLM的认知能力提供了一种新的视角和工具。此外,该研究还揭示了LLM在工作记忆容量和执行功能之间的不匹配,这对于理解LLM的认知机制具有重要意义。

关键设计:论文的关键设计包括:1) 任务选择:选择了一系列经典且具有代表性的工作记忆任务,以全面评估LLM的工作记忆容量;2) 提示工程:设计了合适的自然语言提示,以确保LLM能够正确理解和执行任务;3) 模型选择:选择了不同规模和架构的LLM模型,以评估不同模型的工作记忆能力;4) 评估指标:使用了准确率、召回率等指标来评估LLM在各个任务上的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在大多数工作记忆任务中的表现超过了人类的常模分数,表明其具有很强的工作记忆容量。然而,研究发现LLM的工作记忆容量与执行功能和问题解决能力之间没有显著的相关性。这表明LLM可能在注意力控制和认知灵活性方面存在缺陷,导致其在需要高度认知能力的任务中表现不佳。

🎯 应用场景

该研究的成果可应用于改进LLM的设计和训练,使其在需要高度认知能力的任务中表现更好。例如,可以开发新的训练方法来提高LLM的注意力控制和认知灵活性。此外,该研究还可以帮助我们更好地理解LLM的认知机制,并为开发更智能的AI系统提供指导。

📄 摘要(原文)

Working memory, or the ability to hold and manipulate information in the mind, is a critical component of human intelligence and executive functioning. It is correlated with performance on various cognitive tasks, including measures of fluid intelligence, which encompasses reasoning and problem solving. We use a comprehensive set of classic working memory tasks to estimate the working memory capacity of large language models (LLMs). We find that in most cases, LLMs exceed normative human scores. However, we do not find that the increased capacity of working memory is associated with higher performance on other executive functioning tasks or problem solving benchmarks. These results suggest that LLMs may have deficits in attentional control and cognitive flexibility, which result in difficulties with inhibiting automatic responses and adapting to shifting information. Our findings suggest that current reasoning models have mixed results in compensating for these deficits.