Evaluating GPT- and Reasoning-based Large Language Models on Physics Olympiad Problems: Surpassing Human Performance and Implications for Educational Assessment

📄 arXiv: 2505.09438v2 📥 PDF

作者: Paul Tschisgale, Holger Maus, Fabian Kieser, Ben Kroehs, Stefan Petersen, Peter Wulff

分类: physics.ed-ph, cs.AI

发布日期: 2025-05-14 (更新: 2025-07-01)

DOI: 10.1103/6fmx-bsnl


💡 一句话要点

评估GPT和推理型大语言模型在物理奥赛题上的表现,超越人类水平并探讨对教育评估的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 物理奥赛 教育评估 问题解决 GPT-4o o1-preview 提示工程 人工智能教育

📋 核心要点

  1. 当前物理教育面临LLM滥用风险,可能损害学习过程和评估的有效性,亟需评估LLM的物理问题解决能力。
  2. 本研究对比通用LLM(GPT-4o)和推理优化模型(o1-preview)在物理奥赛题上的表现,分析其优势和局限性。
  3. 实验结果表明,GPT-4o和o1-preview在物理奥赛题上的表现超越人类,提示工程对GPT-4o影响小,o1-preview表现最佳。

📝 摘要(中文)

大型语言模型(LLM)现已广泛普及,触及各个教育阶段的学习者。这种发展引发了人们的担忧,即它们的使用可能会规避必要的学习过程,并损害既定评估形式的完整性。在物理教育中,问题解决在教学和评估中起着核心作用,因此,了解LLM在物理方面的特定问题解决能力至关重要。这种理解是为负责任且符合教学原则的方法提供信息,从而将LLM整合到教学和评估中的关键。本研究比较了通用LLM(GPT-4o,使用不同的提示技术)和推理优化模型(o1-preview)与德国物理奥林匹克竞赛参与者在定义明确的奥林匹克问题上的问题解决性能。除了评估生成解决方案的正确性外,该研究还分析了LLM生成解决方案的特征优势和局限性。研究结果表明,经过测试的两个LLM(GPT-4o和o1-preview)在奥林匹克类型的物理问题上表现出高级的问题解决能力,平均优于人类参与者。提示技术对GPT-4o的性能影响不大,而o1-preview几乎始终优于GPT-4o和人类基准。基于这些发现,该研究讨论了对物理教育中总结性和形成性评估设计的影响,包括如何维护评估的完整性并支持学生批判性地使用LLM。

🔬 方法详解

问题定义:本研究旨在评估大型语言模型(LLMs)在解决物理奥林匹克竞赛问题上的能力,并探讨其对物理教育评估的潜在影响。现有方法缺乏对LLM在物理问题解决方面的深入理解,无法有效指导LLM在教学和评估中的应用。同时,LLM的滥用可能威胁传统评估方式的有效性。

核心思路:核心思路是将LLM的解题能力与人类专家(德国物理奥赛参与者)进行直接对比,通过分析LLM解题的正确性、优势和局限性,来评估LLM在物理问题解决方面的能力。同时,研究还考察了不同prompting策略对LLM性能的影响,以探索更有效的LLM使用方法。

技术框架:研究主要包含以下几个阶段: 1. 问题选择:选取具有代表性的物理奥林匹克竞赛题目。 2. 模型选择:选择通用LLM(GPT-4o)和推理优化模型(o1-preview)作为研究对象。 3. Prompting策略:设计不同的prompting策略,以考察其对LLM性能的影响。 4. 实验评估:将LLM和人类参与者的解题结果进行对比分析,评估LLM的解题能力。 5. 结果分析:分析LLM解题的优势和局限性,并探讨其对物理教育评估的潜在影响。

关键创新:本研究的关键创新在于: 1. 直接将LLM的解题能力与人类专家进行对比,更客观地评估LLM的物理问题解决能力。 2. 系统地考察了不同prompting策略对LLM性能的影响,为LLM的有效应用提供了指导。 3. 深入分析了LLM解题的优势和局限性,为物理教育评估的改进提供了参考。

关键设计:研究中,prompting策略的设计是关键。具体prompting策略的细节未知,但研究考察了不同prompting策略对GPT-4o性能的影响,并发现prompting策略对GPT-4o的性能影响不大。此外,研究还关注了o1-preview模型的性能,该模型在设计上针对推理进行了优化,并在实验中表现出优于GPT-4o和人类的性能。具体参数设置、损失函数和网络结构等技术细节未知。

📊 实验亮点

研究结果表明,GPT-4o和o1-preview在物理奥赛题上的表现超越了人类参与者。具体而言,o1-preview几乎始终优于GPT-4o和人类基准。提示工程对GPT-4o的性能影响较小,表明其具有较强的鲁棒性。这些结果表明,LLM在解决复杂物理问题方面具有巨大的潜力,但也需要关注其局限性,并采取相应的措施来确保评估的公平性和有效性。

🎯 应用场景

该研究成果可应用于物理教育领域,辅助教学和评估。教师可以利用LLM生成练习题、提供解题思路,并评估学生的解题能力。同时,该研究也为教育评估机构提供了参考,帮助其设计更有效的评估方式,以应对LLM带来的挑战。此外,该研究还可推广到其他学科,为LLM在教育领域的应用提供更广泛的指导。

📄 摘要(原文)

Large language models (LLMs) are now widely accessible, reaching learners at all educational levels. This development has raised concerns that their use may circumvent essential learning processes and compromise the integrity of established assessment formats. In physics education, where problem solving plays a central role in instruction and assessment, it is therefore essential to understand the physics-specific problem-solving capabilities of LLMs. Such understanding is key to informing responsible and pedagogically sound approaches to integrating LLMs into instruction and assessment. This study therefore compares the problem-solving performance of a general-purpose LLM (GPT-4o, using varying prompting techniques) and a reasoning-optimized model (o1-preview) with that of participants of the German Physics Olympiad, based on a set of well-defined Olympiad problems. In addition to evaluating the correctness of the generated solutions, the study analyzes characteristic strengths and limitations of LLM-generated solutions. The findings of this study indicate that both tested LLMs (GPT-4o and o1-preview) demonstrate advanced problem-solving capabilities on Olympiad-type physics problems, on average outperforming the human participants. Prompting techniques had little effect on GPT-4o's performance, while o1-preview almost consistently outperformed both GPT-4o and the human benchmark. Based on these findings, the study discusses implications for the design of summative and formative assessment in physics education, including how to uphold assessment integrity and support students in critically engaging with LLMs.