Developing the PsyCogMetrics AI Lab to Evaluate Large Language Models and Advance Cognitive Science -- A Three-Cycle Action Design Science Study

作者: Zhiye Jin, Yibai Li, K. D. Joshi, Xuefei, Deng, Xiaobing, Li

分类: q-bio.NC, cs.AI

发布日期: 2026-03-13

备注: 10 pages. Prepared: April 2025; submitted: June 15, 2025; accepted: August 2025. In: Proceedings of the 59th Hawaii International Conference on System Sciences (HICSS 2026), January 2026

期刊: Proceedings of the 59th Hawaii International Conference on System Sciences (HICSS), January 2026, pp. 6952-6961

💡 一句话要点

构建PsyCogMetrics AI实验室，用于评估大型语言模型并推进认知科学研究

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型评估 心理测量学 认知科学 行动设计科学 AI实验室

📋 核心要点

现有LLM评估方法存在局限性，未能充分满足各方需求，需要更科学、全面的评估体系。
论文提出PsyCogMetrics AI实验室，一个集成平台，结合心理测量学和认知科学方法评估LLM。
通过构建-干预-评估循环，平台不断迭代优化，为LLM评估提供了一种经过验证的设计。

📝 摘要（中文）

本研究介绍了PsyCogMetrics AI实验室（psycogmetrics.ai）的开发，这是一个集成的、基于云的平台，旨在将心理测量学和认知科学方法应用于大型语言模型（LLM）的评估。该研究采用三周期行动设计科学方法，其中相关性周期识别了当前评估方法中的关键局限性和未满足的利益相关者需求。严谨性周期借鉴了波普尔的可证伪性、经典测试理论和认知负荷理论等核心理论，推导出演绎设计目标。设计周期通过嵌套的构建-干预-评估循环来实现这些目标。该研究贡献了一种新颖的IT工具，一种经过验证的LLM评估设计，有益于人工智能、心理学、认知科学以及社会和行为科学交叉领域的研究。

🔬 方法详解

问题定义：当前大型语言模型（LLM）的评估方法存在局限性，例如缺乏对认知过程的深入理解，以及难以量化LLM在心理测量学上的表现。现有的评估方法可能无法充分捕捉LLM在复杂认知任务中的能力，也难以满足不同利益相关者对LLM性能的全面需求。

核心思路：本研究的核心思路是将心理测量学和认知科学的理论与方法应用于LLM的评估。通过借鉴经典测试理论、认知负荷理论和波普尔的可证伪性原则，研究团队旨在构建一个更科学、更严谨的LLM评估框架。这种方法强调对LLM认知过程的深入理解，并力求提供可验证、可重复的评估结果。

技术框架：PsyCogMetrics AI实验室是一个基于云的集成平台，其开发过程遵循三周期行动设计科学方法。该框架包含三个主要阶段：相关性周期（识别问题和需求）、严谨性周期（基于理论推导设计目标）和设计周期（通过构建-干预-评估循环实现目标）。平台提供了一系列心理测量学和认知科学的测试工具，用于评估LLM在不同认知任务中的表现。

关键创新：本研究的关键创新在于将心理测量学和认知科学的理论与方法系统地应用于LLM的评估。与传统的基于准确率或BLEU分数的评估方法不同，PsyCogMetrics AI实验室更关注LLM的认知过程和心理测量学特性。此外，该平台采用行动设计科学方法，通过迭代的构建-干预-评估循环不断优化评估设计。

关键设计：PsyCogMetrics AI实验室的关键设计包括：1) 基于经典测试理论的测试设计，确保测试的信度和效度；2) 基于认知负荷理论的任务设计，评估LLM在不同认知负荷下的表现；3) 基于波普尔的可证伪性原则的评估指标设计，力求提供可验证的评估结果。具体的参数设置、损失函数和网络结构等技术细节取决于所使用的具体测试工具和LLM模型，未在摘要中详细说明。

🖼️ 关键图片

📊 实验亮点

摘要中未提供具体的实验结果和性能数据。研究重点在于平台的设计和开发，以及评估方法的验证。该研究的主要贡献在于提供了一种新的LLM评估框架，并构建了一个可供研究人员使用的平台。具体的性能提升和对比基线需要在完整论文中查找。

🎯 应用场景

该研究成果可应用于LLM的开发、评估和选择。研究人员和开发者可以使用PsyCogMetrics AI实验室来评估LLM在不同认知任务中的表现，并根据评估结果改进LLM的设计。此外，该平台还可以帮助用户选择最适合其需求的LLM模型。未来，该平台有望成为LLM评估领域的标准工具。

📄 摘要（原文）

This study presents the development of the PsyCogMetrics AI Lab (psycogmetrics.ai), an integrated, cloud-based platform that operationalizes psychometric and cognitive-science methodologies for Large Language Model (LLM) evaluation. Framed as a three-cycle Action Design Science study, the Relevance Cycle identifies key limitations in current evaluation methods and unfulfilled stakeholder needs. The Rigor Cycle draws on kernel theories such as Popperian falsifiability, Classical Test Theory, and Cognitive Load Theory to derive deductive design objectives. The Design Cycle operationalizes these objectives through nested Build-Intervene-Evaluate loops. The study contributes a novel IT artifact, a validated design for LLM evaluation, benefiting research at the intersection of AI, psychology, cognitive science, and the social and behavioral sciences.

Developing the PsyCogMetrics AI Lab to Evaluate Large Language Models and Advance Cognitive Science -- A Three-Cycle Action Design Science Study

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理