Uneven Evolution of Cognition Across Generations of Generative AI Models
作者: Isaac Galatzer-Levy, Daniel McDuff, Xin Liu, Jed McGiffin
分类: cs.AI, cs.CV
发布日期: 2026-05-07
备注: 25 pages, 5 Figures, 3 Tables
💡 一句话要点
提出基于心理测量学的AIQ基准,揭示生成式AI模型认知能力演进的非均衡性与架构偏差
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人工智能评估 心理测量学 多模态认知 通用人工智能 架构偏差 AIQ基准 认知演进
📋 核心要点
- 现有评估方法多局限于特定任务,缺乏对模型认知能力全面、系统且可与人类标准对比的心理测量学框架。
- 论文构建了基于韦氏成人智力量表(WAIS)的评估体系及AIQ基准,量化分析了模型在不同认知维度上的演进轨迹。
- 实验发现模型存在严重的认知非均衡性,即语言处理能力远超知觉推理,揭示了当前架构对符号化处理的深度偏好。
📝 摘要(中文)
追求通用人工智能(AGI)需要超越狭隘任务性能的稳健评估方法。本文引入了一种心理测量框架,用于评估生成式AI的认知特征,并将其与人类标准进行对比,追踪其跨代演进。通过使用改编自韦氏成人智力量表(WAIS)的任务对领先的多模态模型进行评估,研究发现模型呈现出极度不均衡的认知架构:在言语理解和工作记忆方面表现接近上限(超过98%分位数),而在知觉推理方面表现接近下限(低于1%分位数)。为追踪超越人类标准的演进轨迹,作者开发了人工智能商数(AIQ)基准,并应用于六代模型。结果揭示了显著但非对称的性能增长,特别是抽象定量推理在语言呈现形式下比视觉形式成熟得更快,表明模型存在偏向语言符号操作的架构偏差。研究结论指出,仅靠规模化和优化可能不足以克服实现平衡通用智能的根本性架构限制。
🔬 方法详解
问题定义:当前生成式AI的评估主要依赖于特定任务的准确率,缺乏对模型“认知架构”的深度剖析。研究旨在解决模型在不同认知维度(如言语理解与知觉推理)上表现极度不平衡的问题,并探究这种差异是否随模型代际演进而改善。
核心思路:引入心理测量学方法,将人类智力评估标准迁移至AI领域。通过对比模型在语言模态与视觉模态下处理相同逻辑问题的能力,揭示模型在处理抽象概念时的模态偏好与架构局限。
技术框架:研究构建了AIQ(Artificial Intelligence Quotient)基准,涵盖了从言语理解、工作记忆到知觉推理等多个认知维度。评估流程包括:任务适配(将WAIS任务转化为模型可处理的Prompt)、多代模型测试、以及跨模态性能对比分析。
关键创新:首次量化揭示了生成式AI在“语言符号操作”与“视觉感知组织”之间的显著解耦。证明了模型在处理抽象定量推理时,语言呈现形式的性能远优于视觉形式,明确了当前大模型架构对语言逻辑的过度依赖。
关键设计:采用了标准化的心理测量任务集,通过对六代模型进行纵向追踪,利用百分位数排名将模型表现映射至人类认知分布,从而直观展示模型在不同认知领域相对于人类能力的演进速度与瓶颈。
🖼️ 关键图片
📊 实验亮点
实验发现模型认知能力存在极端分化:在言语理解与工作记忆上达到人类顶尖水平(>98%分位数),但在知觉推理上表现极差(<1%分位数)。AIQ基准追踪显示,尽管抽象定量推理能力随代际提升,但视觉-知觉组织能力长期停滞,证实了当前模型架构在处理非语言类抽象逻辑时存在本质的性能天花板。
🎯 应用场景
该研究为AGI的研发路线图提供了重要参考。其价值在于:一是为模型开发者提供诊断工具,识别架构中的“认知短板”;二是为评估AI系统的通用智能水平提供科学标准;三是指导未来多模态模型架构设计,推动模型从单纯的语言符号处理向真正的视觉-逻辑融合智能演进。
📄 摘要(原文)
The pursuit of artificial general intelligence necessitates robust methods for evaluating the cognitive capabilities of models beyond narrow task performance. Here, we introduce a psychometric framework to assess the cognitive profiles of generative AI, comparing them to human norms and tracking their evolution across generations. Initial evaluation of leading multimodal models using tasks adapted from the Wechsler Adult Intelligence Scale revealed a profoundly uneven cognitive architecture: near-ceiling performance in verbal comprehension and working memory (>$98^{\text{th}}$ percentile) contrasted with near-floor performance in perceptual reasoning (<$1^{\text{st}}$ percentile). To track developmental trajectories beyond human-normed limits, we developed the Artificial Intelligence Quotient (AIQ) Benchmark and applied it to six generations and two model families, revealing significant but asymmetric performance gains. Notably, we uncovered a sharp dissociation between modalities; abstract quantitative reasoning matured far more rapidly when presented linguistically compared to a visually analogous format, indicating an architectural bias towards language-based symbolic manipulation. While abstract visual reasoning improved, visual-perceptual organization remained largely stagnant. Collectively, these findings demonstrate that the cognitive abilities of generative models are evolving unevenly, suggesting that scaling and optimization approaches to AGI development alone may be insufficient to overcome fundamental architectural limitations in achieving balanced, human-like general intelligence.