Multilingual Performance of a Multimodal Artificial Intelligence System on Multisubject Physics Concept Inventories

📄 arXiv: 2501.06143v3 📥 PDF

作者: Gerd Kortemeyer, Marina Babayeva, Giulia Polverini, Ralf Widenhorn, Bor Gregorcic

分类: physics.ed-ph, cs.AI

发布日期: 2025-01-10 (更新: 2025-05-12)

期刊: Phys. Rev. Phys. Educ. Res. 21, 020101 (2025)

DOI: 10.1103/98hg-rkrf


💡 一句话要点

评估GPT-4o在多语言多模态物理概念清单上的表现,揭示其在物理教育中的潜力与局限。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 多语言处理 物理教育 概念清单 GPT-4o

📋 核心要点

  1. 现有研究多集中于文本,忽略了学生实际面对的图像形式,本文旨在评估GPT-4o在图像形式物理概念清单上的多语言和多模态性能。
  2. 本文采用将物理概念清单以图像形式输入GPT-4o的方式,模拟学生在纸上答题的场景,评估其在不同物理学科和语言上的表现。
  3. 实验结果表明,GPT-4o在不同学科和语言上的表现存在差异,且在视觉解释图像方面表现较弱,但总体优于平均水平的本科生。

📝 摘要(中文)

本文研究了基于大型语言模型的AI系统GPT-4o在多语言和多模态条件下的性能,使用了来自PhysPort网站的涵盖多个语言和学科类别的物理概念清单。这些清单涵盖了经典物理主题,如力学、电磁学、光学和热力学,以及相对论、量子力学、天文学、数学和实验技能。与以往的纯文本研究不同,我们将清单作为图像上传,以模拟学生在纸上看到的内容,从而评估系统的多模态功能。结果表明,不同学科的表现存在差异,其中实验技能最弱。不同语言的表现也存在差异,英语和欧洲语言的表现最强。值得注意的是,清单项目的相对难度在很大程度上与调查的语言无关。将AI结果与现有学生表现文献进行比较发现,除了实验技能外,AI系统在所有学科类别中的表现都优于平均水平的本科生。此外,AI在需要视觉解释图像的项目上的表现比纯文本项目差。虽然我们的探索性发现表明GPT-4o在物理教育中具有潜在用途,但也强调了教师培养学生批判性评估AI输出、深思熟虑地调整课程以应对AI进步以及解决与AI集成相关的公平问题的关键需求。

🔬 方法详解

问题定义:论文旨在评估大型语言模型GPT-4o在解决物理概念理解问题时的能力,尤其是在多语言和多模态(图像输入)场景下。现有方法通常只关注文本输入,忽略了学生在实际学习中遇到的图文混合的情况,并且缺乏对不同语言的物理概念理解能力的系统评估。

核心思路:论文的核心思路是将物理概念清单以图像形式输入GPT-4o,模拟学生在纸上看到题目的场景,从而评估其多模态理解能力。同时,使用多种语言的物理概念清单,评估GPT-4o在不同语言环境下的表现,并与学生的表现进行对比,从而了解其在物理教育中的潜在应用价值。

技术框架:该研究主要依赖于GPT-4o模型本身的多模态和多语言能力。研究人员从PhysPort网站收集了涵盖力学、电磁学、光学、热力学、相对论、量子力学、天文学、数学和实验技能等多个物理学科的物理概念清单,并将这些清单以图像形式上传到GPT-4o。然后,分析GPT-4o在不同学科和语言上的表现,并与已有的学生表现数据进行比较。

关键创新:该研究的关键创新在于:1) 采用图像输入的方式,更贴近学生实际的学习场景,评估了GPT-4o的多模态理解能力;2) 系统地评估了GPT-4o在多种语言下的物理概念理解能力,为跨语言物理教育应用提供了参考;3) 将GPT-4o的表现与学生的表现进行对比,为评估其在物理教育中的潜在应用价值提供了依据。

关键设计:研究中没有涉及特定的网络结构或损失函数设计,主要依赖于GPT-4o本身的能力。关键设计在于实验设置,包括:1) 选择具有代表性的物理概念清单,覆盖多个学科和语言;2) 将清单以图像形式输入GPT-4o,模拟学生在纸上答题的场景;3) 采用合适的评估指标,例如准确率,来衡量GPT-4o的表现;4) 与已有的学生表现数据进行比较,评估GPT-4o的相对能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GPT-4o在英语和欧洲语言的物理概念理解上表现较强,但在实验技能方面表现较弱。在大多数学科中,GPT-4o的表现优于平均水平的本科生,但在需要视觉解释图像的项目上表现较差。研究表明,物理概念清单的相对难度与语言无关。

🎯 应用场景

该研究结果可应用于物理教育领域,例如辅助教学、个性化学习和自动评估。教师可以利用AI系统辅助教学,为学生提供个性化的学习建议。此外,AI系统还可以用于自动评估学生的物理概念理解水平,减轻教师的负担。然而,也需要关注AI输出的可靠性,培养学生批判性思维,并解决AI应用中的公平性问题。

📄 摘要(原文)

We investigate the multilingual and multimodal performance of a large language model-based artificial intelligence (AI) system, GPT-4o, using a diverse set of physics concept inventories spanning multiple languages and subject categories. The inventories, sourced from the PhysPort website, cover classical physics topics such as mechanics, electromagnetism, optics, and thermodynamics, as well as relativity, quantum mechanics, astronomy, mathematics, and laboratory skills. Unlike previous text-only studies, we uploaded the inventories as images to reflect what a student would see on paper, thereby assessing the system's multimodal functionality. Our results indicate variation in performance across subjects, with laboratory skills standing out as the weakest. We also observe differences across languages, with English and European languages showing the strongest performance. Notably, the relative difficulty of an inventory item is largely independent of the language of the survey. When comparing AI results to existing literature on student performance, we find that the AI system outperforms average post-instruction undergraduate students in all subject categories except laboratory skills. Furthermore, the AI performs worse on items requiring visual interpretation of images than on those that are purely text-based. While our exploratory findings show GPT-4o's potential usefulness in physics education, they highlight the critical need for instructors to foster students' ability to critically evaluate AI outputs, adapt curricula thoughtfully in response to AI advancements, and address equity concerns associated with AI integration.