Visual Large Language Models Exhibit Human-Level Cognitive Flexibility in the Wisconsin Card Sorting Test
作者: Guangfu Hao, Frederic Alexandre, Shan Yu
分类: cs.AI, q-bio.NC
发布日期: 2025-05-28
💡 一句话要点
研究表明视觉大语言模型在威斯康星卡片分类测试中展现出人类水平的认知灵活性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉大语言模型 认知灵活性 威斯康星卡片分类测试 集合转换能力 思维链提示
📋 核心要点
- 认知灵活性在人类认知中被广泛研究,但在视觉大语言模型(VLLMs)中相对未被探索。
- 本研究使用威斯康星卡片分类测试(WCST)评估VLLMs的认知灵活性,通过思维链提示和角色扮演来模拟认知缺陷。
- 实验结果表明,VLLMs在特定条件下达到或超过人类水平的集合转换能力,并能模拟认知缺陷,暗示其认知架构与大脑相似。
📝 摘要(中文)
本研究评估了最先进的视觉大语言模型(VLLMs),包括GPT-4o、Gemini-1.5 Pro和Claude-3.5 Sonnet,在威斯康星卡片分类测试(WCST)中的认知灵活性。WCST是衡量集合转换能力(set-shifting ability)的经典方法。结果表明,在基于文本输入的思维链提示下,VLLMs达到了甚至超过了人类水平的集合转换能力。然而,它们的能力受到输入模态和提示策略的显著影响。此外,研究发现通过角色扮演,VLLMs可以模拟与认知灵活性受损患者相符的各种功能缺陷,这表明VLLMs可能具有与大脑相似的认知架构,至少在集合转换能力方面是如此。这项研究揭示了VLLMs已经在我们更高认知的一个关键组成部分上接近人类水平,并突出了使用它们来模拟复杂大脑过程的潜力。
🔬 方法详解
问题定义:论文旨在评估视觉大语言模型(VLLMs)在认知灵活性方面的能力,特别是集合转换能力。现有方法缺乏对VLLMs在类似人类认知任务上的系统性评估,尤其是在模拟认知缺陷方面的研究。
核心思路:论文的核心思路是利用威斯康星卡片分类测试(WCST)这一经典认知测试来评估VLLMs的集合转换能力。通过设计不同的提示策略和输入模态,研究人员可以观察VLLMs在面对规则变化时的适应能力,并进一步通过角色扮演模拟认知缺陷,从而深入了解VLLMs的认知架构。
技术框架:研究采用了一种实验框架,包括以下几个主要阶段:1) 选择代表性的VLLMs(GPT-4o, Gemini-1.5 Pro, Claude-3.5 Sonnet);2) 设计WCST的文本和视觉输入;3) 使用不同的提示策略,包括思维链提示;4) 通过角色扮演模拟认知缺陷;5) 分析VLLMs在不同条件下的表现,并与人类表现进行比较。
关键创新:该研究的关键创新在于将WCST应用于评估VLLMs的认知灵活性,并探索了VLLMs模拟认知缺陷的能力。与以往主要关注VLLMs在视觉任务或语言任务上的表现不同,本研究关注其更高层次的认知能力,并尝试揭示其认知架构。
关键设计:研究的关键设计包括:1) 使用思维链提示来提高VLLMs的推理能力;2) 设计角色扮演场景,模拟不同类型的认知缺陷;3) 采用标准化的WCST评估流程,确保实验结果的可比性;4) 对VLLMs的输出进行定量分析,例如正确分类的卡片数量、错误类型等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在思维链提示下,VLLMs在WCST中达到了或超过了人类水平的集合转换能力。通过角色扮演,VLLMs能够模拟与认知灵活性受损患者相符的各种功能缺陷。这些发现表明VLLMs可能具有与大脑相似的认知架构,至少在集合转换能力方面是如此。
🎯 应用场景
该研究成果可应用于开发更智能、更具适应性的AI系统,例如在人机交互、智能助手和认知康复等领域。通过理解VLLMs的认知能力,可以更好地设计与人类认知模式相符的AI系统,并利用其模拟认知缺陷的能力来辅助认知障碍的诊断和治疗。此外,该研究也为探索通用人工智能(AGI)的认知架构提供了新的思路。
📄 摘要(原文)
Cognitive flexibility has been extensively studied in human cognition but remains relatively unexplored in the context of Visual Large Language Models (VLLMs). This study assesses the cognitive flexibility of state-of-the-art VLLMs (GPT-4o, Gemini-1.5 Pro, and Claude-3.5 Sonnet) using the Wisconsin Card Sorting Test (WCST), a classic measure of set-shifting ability. Our results reveal that VLLMs achieve or surpass human-level set-shifting capabilities under chain-of-thought prompting with text-based inputs. However, their abilities are highly influenced by both input modality and prompting strategy. In addition, we find that through role-playing, VLLMs can simulate various functional deficits aligned with patients having impairments in cognitive flexibility, suggesting that VLLMs may possess a cognitive architecture, at least regarding the ability of set-shifting, similar to the brain. This study reveals the fact that VLLMs have already approached the human level on a key component underlying our higher cognition, and highlights the potential to use them to emulate complex brain processes.