How critically can an AI think? A framework for evaluating the quality of thinking of generative artificial intelligence

📄 arXiv: 2406.14769v1 📥 PDF

作者: Luke Zaphir, Jason M. Lodge, Jacinta Lisec, Dom McGrath, Hassan Khosravi

分类: cs.AI

发布日期: 2024-06-20


💡 一句话要点

提出MAGE框架,评估生成式AI在模拟批判性思维能力方面的局限性,辅助教育者设计更鲁棒的评估方案。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成式AI 大型语言模型 批判性思维 教育评估 MAGE框架

📋 核心要点

  1. 当前数字化评估在公平性、学术诚信等方面面临挑战,教育者需要评估方法来应对生成式AI带来的冲击。
  2. 论文提出MAGE框架,旨在系统性地评估现有评估方法在批判性思维技能方面对生成式AI的脆弱性。
  3. 该框架通过对ChatGPT4的测试,为教育者提供具体指导,以设计更能抵抗AI作弊的评估任务。

📝 摘要(中文)

生成式AI,特别是基于大型语言模型的AI,为创新评估设计实践带来了机遇。然而,由于近期的技术发展,我们需要了解生成式AI在模拟认知技能方面的局限性和能力。评估学生的批判性思维技能一直是评估的重要组成部分,但数字化评估对公平性、学术诚信和评估作者身份提出了独特的挑战。教育者需要一个框架来确定他们的评估对生成式AI的脆弱性,从而指导评估设计实践。本文提出了问题映射、AI脆弱性测试、评分和评估(MAGE)框架,以系统地评估其学科背景下的评估。这种评估将提供关于其问题在批判性思维技能方面的脆弱性的具体和有针对性的指示,从而为任务的评估设计奠定基础。

🔬 方法详解

问题定义:论文旨在解决教育评估领域中,如何评估现有评估方法对生成式AI(如ChatGPT4)的脆弱性的问题。现有评估方法难以有效区分学生真实能力与AI生成答案,存在学术诚信风险,且缺乏针对AI的鲁棒性评估标准。

核心思路:论文的核心思路是构建一个系统性的评估框架,即MAGE框架,通过映射问题、测试AI脆弱性、评分和评估等步骤,量化评估现有评估方法在考察批判性思维能力时,被AI攻破的可能性。通过识别评估中的薄弱环节,为教育者提供改进评估设计的依据。

技术框架:MAGE框架包含以下四个主要阶段: 1. 问题映射(Mapping of questions):将评估问题映射到特定的批判性思维技能上,明确每个问题旨在考察的能力。 2. AI脆弱性测试(AI vulnerability testing):使用ChatGPT4等生成式AI回答评估问题,记录AI的回答结果。 3. 评分(Grading):对AI的回答进行评分,评估其质量和准确性。 4. 评估(Evaluation):综合分析问题映射、AI回答和评分结果,评估评估方法在考察特定批判性思维技能时,对AI的脆弱性程度。

关键创新:MAGE框架的关键创新在于其系统性和可操作性。它提供了一个明确的流程,帮助教育者识别评估方法中容易被AI利用的漏洞。与以往依赖主观判断的评估方法不同,MAGE框架试图通过量化指标来评估AI的威胁,从而更客观地指导评估设计。

关键设计:MAGE框架的关键设计在于其灵活性和可扩展性。教育者可以根据自身学科特点和评估目标,调整框架中的具体步骤和评估指标。例如,在AI脆弱性测试阶段,可以选择不同的生成式AI模型进行测试;在评分阶段,可以采用不同的评分标准和方法。此外,框架还鼓励教育者根据评估结果,迭代改进评估设计,不断提高评估的鲁棒性。

📊 实验亮点

论文通过对ChatGPT4的测试,展示了MAGE框架在评估现有评估方法脆弱性方面的有效性。虽然论文没有提供具体的性能数据或提升幅度,但它提供了一个可操作的框架,帮助教育者识别评估中的薄弱环节,并针对性地进行改进,从而提高评估的鲁棒性。

🎯 应用场景

该研究成果可应用于高等教育、职业培训等多个领域,帮助教育者设计更具挑战性和区分度的评估任务,减少学术不端行为,确保评估结果的有效性和可靠性。通过MAGE框架,教育者可以更好地了解生成式AI的能力边界,从而更有效地利用AI技术辅助教学和评估。

📄 摘要(原文)

Generative AI such as those with large language models have created opportunities for innovative assessment design practices. Due to recent technological developments, there is a need to know the limits and capabilities of generative AI in terms of simulating cognitive skills. Assessing student critical thinking skills has been a feature of assessment for time immemorial, but the demands of digital assessment create unique challenges for equity, academic integrity and assessment authorship. Educators need a framework for determining their assessments vulnerability to generative AI to inform assessment design practices. This paper presents a framework that explores the capabilities of the LLM ChatGPT4 application, which is the current industry benchmark. This paper presents the Mapping of questions, AI vulnerability testing, Grading, Evaluation (MAGE) framework to methodically critique their assessments within their own disciplinary contexts. This critique will provide specific and targeted indications of their questions vulnerabilities in terms of the critical thinking skills. This can go on to form the basis of assessment design for their tasks.