Evaluating ChatGPT-4 Vision on Brazil's National Undergraduate Computer Science Exam

📄 arXiv: 2406.09671v1 📥 PDF

作者: Nabor C. Mendonça

分类: cs.AI, cs.CL

发布日期: 2024-06-14

备注: Accepted for publication

期刊: ACM Transactions on Computing Education, June 2024

🔗 代码/项目: GITHUB


💡 一句话要点

评估ChatGPT-4 Vision在巴西计算机科学本科入学考试中的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 计算机视觉 教育评估 多模态学习 ChatGPT-4 Vision

📋 核心要点

  1. 现有大型语言模型在处理包含视觉元素的科学教育材料时面临挑战,需要评估其在真实学术场景中的表现。
  2. 本研究使用ChatGPT-4 Vision处理巴西计算机科学本科入学考试,评估其在理解文本和视觉信息方面的能力。
  3. 实验结果表明,ChatGPT-4 Vision在考试中表现优异,但仍需人工监督以确保准确性和公平性。

📝 摘要(中文)

本研究旨在评估ChatGPT-4 Vision在科学技术教育中的潜力,尤其是在使用图表等视觉元素提升学习体验的场景下。研究选取巴西2021年全国本科计算机科学入学考试(ENADE)作为评估对象,将考试的开放式和多项选择题以原始图像格式呈现给模型,并通过对不同答案的重新评估,考察模型在涉及文本和视觉内容的大规模学术评估中的推理和自反思能力。结果表明,ChatGPT-4 Vision的性能显著优于平均考生,位列前10%。虽然模型在包含视觉元素的题目中表现出色,但在问题理解、逻辑推理和视觉敏锐度方面仍面临挑战。独立专家组对模型与答案不一致的情况进行审查,发现部分题目存在模糊或歧义,凸显了未来考试中改进问题设计的必要性。研究表明,ChatGPT-4 Vision在多模态学术评估中具有潜力,但人工监督对于验证模型的准确性和确保高风险教育考试的公平性至关重要。研究材料已公开。

🔬 方法详解

问题定义:本研究旨在评估大型语言模型(LLMs)在处理包含视觉信息的复杂学术问题时的能力。现有方法在理解和推理视觉信息方面存在局限性,尤其是在高风险的教育评估场景中,模型的准确性和可靠性至关重要。因此,需要对LLMs在真实学术考试中的表现进行全面评估,并识别其潜在的不足之处。

核心思路:本研究的核心思路是将ChatGPT-4 Vision应用于巴西计算机科学本科入学考试(ENADE),该考试包含文本和视觉元素。通过将考试题目以原始图像格式呈现给模型,并分析其答案的准确性,可以评估模型在理解、推理和解决复杂学术问题方面的能力。此外,通过与人类考生的表现进行比较,可以了解模型在教育评估中的潜在应用价值。

技术框架:本研究的技术框架主要包括以下几个步骤:1) 获取巴西2021年全国本科计算机科学入学考试(ENADE)的试题,包括多项选择题和开放式问题。2) 将试题以原始图像格式呈现给ChatGPT-4 Vision。3) 记录模型对每个问题的答案。4) 将模型的答案与官方答案进行比较,评估模型的准确性。5) 邀请独立专家组审查模型与答案不一致的情况,识别问题设计中的潜在缺陷。6) 将模型的表现与人类考生的表现进行比较,评估模型在教育评估中的潜在应用价值。

关键创新:本研究的关键创新在于:1) 首次将ChatGPT-4 Vision应用于巴西计算机科学本科入学考试,评估其在真实学术场景中的表现。2) 通过对模型与答案不一致的情况进行专家审查,识别了问题设计中的潜在缺陷,为未来考试的改进提供了参考。3) 将模型的表现与人类考生的表现进行比较,为LLMs在教育评估中的应用提供了新的视角。

关键设计:本研究的关键设计包括:1) 使用原始图像格式呈现试题,以模拟真实考试场景。2) 允许模型对答案进行重新评估,以考察模型的自反思能力。3) 邀请独立专家组审查模型与答案不一致的情况,以确保评估的客观性和公正性。4) 使用标准的评估指标,如准确率和排名百分比,来衡量模型的表现。

🖼️ 关键图片

img_0

📊 实验亮点

ChatGPT-4 Vision在巴西计算机科学本科入学考试中表现出色,显著优于平均考生,位列前10%。在包含视觉元素的题目中表现尤为突出。专家组审查发现部分题目存在模糊或歧义,提示未来考试需要改进问题设计。该研究表明LLM在教育评估中具有潜力,但仍需人工监督。

🎯 应用场景

该研究成果可应用于在线教育平台,辅助教学和评估,例如自动批改作业、提供个性化学习建议等。此外,该研究也为未来LLM在教育领域的应用提供了参考,例如辅助命题、自动生成教学材料等。通过不断改进LLM的性能,有望提升教育质量和效率。

📄 摘要(原文)

The recent integration of visual capabilities into Large Language Models (LLMs) has the potential to play a pivotal role in science and technology education, where visual elements such as diagrams, charts, and tables are commonly used to improve the learning experience. This study investigates the performance of ChatGPT-4 Vision, OpenAI's most advanced visual model at the time the study was conducted, on the Bachelor in Computer Science section of Brazil's 2021 National Undergraduate Exam (ENADE). By presenting the model with the exam's open and multiple-choice questions in their original image format and allowing for reassessment in response to differing answer keys, we were able to evaluate the model's reasoning and self-reflecting capabilities in a large-scale academic assessment involving textual and visual content. ChatGPT-4 Vision significantly outperformed the average exam participant, positioning itself within the top 10 best score percentile. While it excelled in questions that incorporated visual elements, it also encountered challenges with question interpretation, logical reasoning, and visual acuity. The involvement of an independent expert panel to review cases of disagreement between the model and the answer key revealed some poorly constructed questions containing vague or ambiguous statements, calling attention to the critical need for improved question design in future exams. Our findings suggest that while ChatGPT-4 Vision shows promise in multimodal academic evaluations, human oversight remains crucial for verifying the model's accuracy and ensuring the fairness of high-stakes educational exams. The paper's research materials are publicly available at https://github.com/nabormendonca/gpt-4v-enade-cs-2021.